RSS订阅 | 匿名投稿
您的位置:网站首页 > 相关知识 > 正文

数据分析 第七篇:相关分析

作者:habao 来源: 日期:2019-8-11 10:08:48 人气: 标签:相关分析

  相关分析是数据分析的一个基本方法,可以用于发现不同变量之间的关联性,关联是指数据之间变化的相似性,这可以通过相关系数来描述。发现相关性可以帮助你预测未来,而发现关系意味着你可以改变世界。

  这意味着当协方差Cov(X,Y) 不等于 0 时,X和Y不相互,而是存在一定的关系,此时,称作X和Y相关。在统计学上,使用协方差和相关系数来描述随机变量X和Y的相关性:

  协方差:如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。从数值来看,协方差的数值越大,两个变量同向程度也就越大。

  相关系数:相关系数消除了两个变量变化幅度的影响,只是单纯反应两个变量每单位变化时的相似程度。

  相关系数用于描述定量变量之间的关系,相关系数的符号(+、-)表明关系的方向(正相关、负相关),其值的大小表示关系的强弱程度(完全不相关时为0,完全相关时为1)。

  例如,下面两种情况中,很容易看出X和Y都是同向变化的,而这个“同向变化”有个非常显著特征:X、Y同向变化的过程,具有极高的相似度。

  协方差的数值相差一万倍,只能从两个协方差都是正数判断出在这两种情况下X、Y都是同向变化,但是一点也看不出两种情况下X、Y的变化都具有相似性这一特点。

  虽然两种情况的协方差相差1万倍,但是,它们的相关系数是相同的,这说明,X的变化与Y的变化具有很高的相似度。

  R可以计算多种相关系数,包括Pearson相关系数、Spearman相关系数、Kendall相关系数、偏相关系数、多分格(polychoric)相关系数和多系列(polyserial)相关系数。下面让我们依次理解这些相关系数。

  Pearson积差相关系数衡量了两个定量变量之间的线性相关程度,Spearman等级相关系数则衡量分级定序变量之间的相关程度,Kendall相关系数也是一种非参数的等级相关度量。cor()函数可以计算这三种相关系数,而cov()函数可以计算协方差。

  y:默认情况下,y=NULL表示y=x,也就是说,所有变量之间两两计算相关,也可以指定其他的矩阵或数据框,使得x和y的变量之间两两计算相关。

  use:指定缺失数据的处理方式,可选的方式为all.obs(遇到缺失数据时报错)、everything(遇到缺失数据时,把相关系数的计算结果设置为missing)、complete.obs(行删除)以及lete.obs(成对删除)

  method:指定相关系数的类型,可选类型为pearson, kendall, spearman

  例如,使用R基础安装包中的state.x77数据集,它提供了美国50个州的人口、收入、文盲率(Illiteracy)、预期寿命(Life Exp)、率和高中毕业率(HS Grad)等数据。

  可以看到,收入和高中毕业率之间存在很强的正相关(约0.620),文盲率和率之间存在很强的正相关(约0.703),文盲率和高中毕业率之间存在很强的负相关(约-0.657),预期寿命和率之间存在很强的负相关(约-0.781)等。

  偏相关是指在控制一个或多个定量变量(称作条件变量)时,另外两个定量变量之间的相关关系。可以使用ggm包中的pcor()函数计算偏相关系数。

  例如:在控制了收入、文盲率和高中毕业率的条件下,计算的人口和率之间的偏相关系数为0.346:

  在计算好相关系数之后,需要对相关性进行显著性检验,常用的原假设是变量间不相关(即总体的相关系数为0),可以使用cor.test()函数对单个的Pearson、Spearman和Kendall相关系数进行显著性检验,以验证原假设是否成立。如果p值很小,说明变量之间存在相关性,相关性的大小由相关系数确定。

  显著性检验返回的结果中,p值(p value)就是当原假设时所得到的样本观察结果出现的概率。如果p值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由原假设,p值越小,我们原假设的理由越充分。

  小概率原理是指:在统计学中,通常把在现实世界中发生几率小于5%的事件称之为“不可件”,通常把显著性水平定义为0.05,或0.025。当p值小于显著性水平时,把原假设视为不可件,因为原假设。

  假设总体的相关度为0,则预计在1千万次中只会有少于1次的机会见到0.703的样本相关度,由于这种情况几乎不可能发生,所以原假设,即预期寿命和率之间的总体相关度不为0。

  在多元正态性的假设下,psych包中的pcor.test()函数用于检验在控制一个或多个条件变量时,两个变量之间的性。

  转载自蓝鲸网站分析博客种常用的相关分析方法相关分析(AnalysisofCorr...博文来自:shiyutianming的博客

  简单相关分析的基本步骤如下:下面以腰围、体重、脂肪比重为例,来说明应该怎样进行相关分析。第1步:绘制散点图在SPSS中,绘制散点图非常简单。操作步骤如下:1)点击图形à图表构建程序。2)在库中选择散点...博文来自:Gavin Chen的专栏

  相关分析(AnalysisofCorrelation)是网站分析中经常使用的分析方法之一。通过对不同特征或数据间的关系进行分析,发现业务...博文来自:mituan1234567的专栏

  一、概念理解相关关系:变量之间存在着的非严格的不确定的关系,对它们进行深层次的分析,观察它们的密切程度。相关性分析:对变量之间相关关系的分析,即相关性分析。其中比较常用的是线性相关分析,用来衡量它的指...博文来自:data_cola的博客

  z分数 z分数(z-score),也叫标准分数(standardscore)是一个数与平均数的差再除以标准差的过程。正太Q-Q图茎叶图茎叶图读法如下图;第一行:B区域为46,48;第二行:A区域为53...博文来自:Rnan_wang的博客

  就适用性来说,kendallspearmanpearson,在考察两两变量间相关关系时,应了解两变量的变量类型以及是否有正态性,然后决定使用哪个系数。(连续资料时)spearman和p...博文来自:weixin_34129696的博客

  相关分析研究的是两个变量的相关性,但你研究的两个变量必须是有关联的,如果你把历年人口总量和你历年的身高做相关性分析,分析结果会呈现显著地相关,但它没有实际的意义,因为人口总量和你的身高都是逐步增加的,...博文来自:HaLosec_Wei

  概述在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关,男欢男爱网也可能是没有关联,那么我们就需要一种能把这种关联性定量的工具来对数...博文来自:SpeculateCat

  卡方检验是以χ2分布为基础的一种常用假设检验方法,它的零假设H0是:观察频数与期望频数没有差别。该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ...博文来自:羊城迷鹿的博客

  在做数据分析时,为了提炼观点,相关性分析是必不可少,而且尤为重要的一个环节。但是,对于不同类型的数据,相关性分析的方法都各不相同。本文,主要按照不同的数据类型,来对各种相关性分析方法进行梳理总结。相关...博文来自:weixin_30900589的博客

  概述在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关,也可能是没有关联,那么我们就需要一种能把这种关联性定量的工具来对数...博文来自:花名:白起

  “工欲善其事,必先利其器”,如果把数据建模比作伐木,那么前期的数据探索性分析则是细致的“霍霍磨刀”,有效的探索性分析能够帮助我们捕捉到数据之间的关联效应,为之后的特征工程、模型构建奠定基础。而在探索性...博文来自:Jimmyzqb的博客

  先附上自己认为写的比较好的一篇博客。同时要指出自己博文的问题:对于Matlab中canoncorr中的stats...博文来自:ludan_xia的博客

  概念:Pearson相关系数(PearsonCorrelationCoefficient)是用来衡量两个数据集合是否在一条线,它用来衡量定距变量间的线]若想...博文来自:张之海的博客

  微信号关键字全网搜索最新排名【机器学习算法】:排名第一【机器学习】:排名第一【Python】:排名第三【算法】:排名第四人工智能与Python公开课限时免费文末领取前言典型关联分析(Canonic...博文来自:机器学习算法与Python学习

  假设有一组变量{x1,x2,x3...xn}和另外一组变量:{y1,y2,y3...yn} 有那些算法可以计算他们之间的相关性以及相关系数。如果两组变量相关,又如何得出他们之间的模型? 欢迎大家讨论!论坛

  数据特征分析技能——相关性检验相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度一般常用四种方法:-画图判断-pearson(皮尔逊)相关系数-sperman(...博文来自:GengPeng的博客

  需要一种方法评价两组数据之间的相关性,有皮尔森(pearson)相关系数,斯皮尔曼(spearman)相关系数和肯德尔(kendall)相关系数。在这三大相关系数中,spearman和kend...博文来自:luckoovy的博客

  一、变量间的关系分析变量之间的关系可分为两类:1.存在完全确定的关系——称为函数关系2.不存在完全确定的关系——虽然变量间有着十分密切的关系,但是不能由一个或多各变量值精确地求出另一个变量的值,称为相...博文来自:的博客

  Spss做相关性分析相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析(比如身高和体重),有些数...博文来自:w1129390772的博客

  对两列数据的相关性以及显著性水平的问题一直有困扰,由于对excel的钟情,总是倾向于把数据分析放在excel中进行。本文简单分析excel和SPSS对相关分析和显著性水平的检验应用。(1)方法介绍Ex...博文来自:水滴石穿,绳锯木断

  分析特征之间的相关性,得到哪个两个特征的具有关系,这样对于后期的数据分析可以提供帮助。数据源示例:(每列都是一个特征,每行为一个用户)[10,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0...博文来自:花名:白起

  图论模型图论模型Dijkstra算法概念带权邻接矩阵代码操作Floyd算法概念代码操作Dijkstra算法概念Dijkstra算法能求一个顶点到另一顶点最短径。它是由Dijkstra于1959年提出...博文来自:weixin_40108753的博客

  转载自接触这么多组学数据,大家肯定做过各种相关性分析。大到几个组样本的整体相关性分析,小到挑选了一些候选基因看它们在不同...博文来自:songhao的专栏

  logistic回归,又叫对数几率回归(从后文中便可此名由来)。首先给大家强调一点,这是一个分类模型而不是一个回归模型!下文开始将从不同方面logistic回归的原理,随后分别使用梯度上升算法和随...博文来自:feilong_csdn的博客

  相关性分析相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。下面我们将使用两个股票的收盘价分析他们股票的相关性。首先给出两个股票30天的收盘价数据,分别创建两...博文来自:周红艳的博客

  先看两个数学概念:相关系数(参看百度百科)   相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相...博文来自:风翼冰舟的博客

  简介相关分析属于数据分析流程前端的探索性分析,探究变量间关系及性质,其结果在于指导下一步采取何种方法,是数据挖掘之前的基础工作;场景相关分析之前,有必要搞清楚变量的类型,根据具体类型选择合适的相关系数...博文来自:会编程的大白熊

  现在很多人都说,做it门槛很低,脑子灵活点,愿意去熬的,培训个几个月就可以,无非是调调函数而已。确实,现在一些程序员的工作,调调函数掌握得好的话,也是能够胜任的。但是,想要更进一步,还得不断提升自己,...博文来自:dare_kz的博客

  Pearson相关系数考察两个事物(在数据里我们称之为变量)之间的相关程度,简单来说就是衡量两个数据集合是否在一条线。其计算公式为:或或N表示变量取值的个数。  相关系数r的值介于–1与+1之间,...博文来自:张晖的专栏

  相干性(Coherence)和相关性(Correlation)的区别和联系前言:研究EEG信号,在计算两个信号间关联时需要讨论一下区别。相关性(Correlation):显示两相关变量之间线性关系的强...博文来自:MissXy_的博客

  散点图是用来判断两个变量之间的相互关系的工具,一般情况下,散点图用两组数据构成多个坐标点,通过观察坐标点的分布,判断变量间是否存在关联关系,以及相关关系的强度。此外,如果不存在相关关系,可以使用散点图...博文来自:张洪举

  一、SPSS中的因子分析。具体操作步骤:(1)定义变量:x1-财政用于农业的支出的比重,x2-第二、三产业从业人数占全社会从业人数的比重,x3-非农村人口比重,x4-乡村从业人员占农村人口的比重,x5...博文来自:Code Wang的博客

  因子分析分为Q型和R型,我们是正对R型进行如下研究:一。因子分析步骤:1.确认是是否适合做因子分析2.构造因子变量3.旋转方释4.计算因子变量得分二。因子分析的计算过程:1.将原始数据标准化目的:...博文来自:slade_sha的博客

  p值可以解释如下:一个很小的p值表示,在预测变量和响应变量之间的真实关系未知的情况下,不太可能完全由于偶然而观察到预测变量和响应变量之间的强相关。因此,如果看到一个很小的p值,就可以推断预测变量和响应...博文来自:王文强的博客

  相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析,反应的线性相关程度的量,比如:流量和...博文来自:机器学习、数据挖掘

  看两者是否算相关要看两方面:显著水平以及相关系数(1)显著水平,就是P值,这是首要的,因为如果不显著,相关系数再高也没用,可能只是因为偶然因素引起的,那么多少才算显著,一般p值小于0.05就是显著了;...博文来自:xiaocong1990的博客

  财成国际

读完这篇文章后,您心情如何?
0
0
0
0
0
0
0
0
本文网址:
下一篇:没有资料