您的当前位置:首页正文

相关系数与决定系数辨析

2022-07-11 来源:年旅网
科技编辑研究相关系数与决定系数辨析王亚军(北京理工大学《安全与环境学报》杂志社,北京100081)摘要:对在科学研究中常用的两种易混淆的数据统计分析方法,相关分析和回归分析以及相应的相关系数和决定系数,从其定义出发,分析了它们的联系和区别,并对发表论文中的常见误用和错用的情况进行了辨析,指出了存在的问题。通过分析原因,提出了避免混淆和不规范使用的一些应对措施。关键词:科技论文;相关系数;决定系数;相关分析;回归分析在科学研究和工程实践中,对得到的数据常要进行统计分析。而相关分析和回归分析就是极为常用的2种数理统计方法。在各科学研究领域都有着广泛的用途。相关系数是其中一个比较重要和常用的判断数据相关关系的依据,决定系数用于判断回归模型的拟合程度。在编辑实践以及阅读文献时经常发现误用和错用的情况。因此,有必要对相关、回归以及相关系数和决定系数进行辨析。1关关系,反映2个变量线性关系的方向和密切程度,没有单位。r的取值范围为【1,1】,其绝对值大。说明两变量线性关系好。反之线性关系差或不存在线性关系;正号表示正相关,负号表示负相关。1.2回归分析和决定系数回归分析是通过建立模型来研究变量间的相关关系。既可用于分析和解释变量间的关系,又可用于预测和控制。在回归分析中,变量分为因变量和自变量。因变量往往是较晚发生或受其他变量影响的量,而其他变量为自变量.它们往往比因变量早发生或主动影响因变量。回归分析就是寻求因变量和自变量间的回归模型的统计方法。了解因变量依自变量变化的规律。回归分析分为2种类型,即模型I回归和模型II回归。如果自变量为普通变量(一般变量、固定变量、可控变量、非随机变量)。可采用“最小二乘法”回归,即为模型I回归分析;如果自变量为随机变量。所采用的回归方法与计算目的有关一在以预测为目的的情况下,仍采用“最小二乘法”,在以估值为目的的情况下使用相对严谨的“主轴法”、“约化主轴法”或“Bardett法”,即为模型Ⅱ回归分析四。在科学研究中.常常使用的是模型I回归分析。而判断模型拟合效果的指标就是决定系数。相关系数和决定系数相关是指随机变量之间的关系或联系程1.1相关分析和相关系数度.表达的是一种不精确、不稳定的统计关系(相对于函数关系)。相关分析是用相关系数来表示变量问相互的共变关系.并判断其密切程度的统计方法。相关系数由英国统计学家KPearson首创。因此称为Peafson相关系数,它是依据积差计算的。因此又称为积差相关系数或积矩相关系数,又可称为简单相关系数、样本相关系数、线性相关系数等,一般用小写英文字母,表示【n。其计算公式(二元相关)为主k一;b一一Y)r=相关系数用来度量定距变量间的线性相..74-长江流域暨西北地区2008年期刊学术年会且z:害燃:争:窆瞄一歹丫/杰以一-y决定系数的计算公式为一=卜黼十妾=1-喜(*一五)2麈以一-y总离差平方和&智r7J/智w,,‘总离差平方和‘品智L““j/鲁w叫由回归平方和与残差平方和的意义可知,在总离差平方和中回归平方和所占比重越大。则线性回归效果就越好;如果残差平方和所占比重越大,则线性回归效果越差。因此。决定系数R:可以作为回归值与实际观测值拟合程度的度量。Rz越接近l。说明二者的拟合程度越好。特别地,当Y与茗呈线性相关关系(相关分析的结果)时,样本决定系数等于样本相关系数的平方,即Rz=r2。决定系数越大,自变量对因变量的解释程度越高.自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。1.3相关分析和回归分析的联系与区别相关分析与回归分析均为研究两个或多个变量间相关性的方法.描述的是变量间的不完全确定统计关系。在具体应用上.回归分析需要借助相关分析,根据相关程度决定是否进行回归分析。相关分析需要借助回归分析,拟合相应的回归方程,表明变量间的数量关系,以便进行估计和预测。相关分析是回归分析的基础,回归分析是把变量的相关关系转化为函数关系的手段。另外。对于同一数据资料,相关系数r和回归系数b符号相同,r和b的假设检验结果等价.r和b可以互相换算。但是两种数理统计方法又存在着本质的区别。(1)相关分析是度量两类变量间线性联系的强弱程度或共变趋势。回归分析除了研究自变量与因变量之间相随变动的关系外,还要根据自变量的已知固定值来估计或预测因变量的总体平均值。(2)相关分析研究的是变量间的相互关系,变量间的关系是对等的。而回归分析需要确定因变量和自变量,反映两者的依存关系,两者的关系不对等。要注意有相关联系不一定有因果关系。(3)相关分析研究一个或一组变量与另一个(二元相关)或一组变量(多元相关)之间相随变动的程度。回归分析研究自变量的变动对因变量的变动的影响程度,因变量只有一个,自变量为一个(一元回归)或多个(多元回归)。(4)相关分析要求变量均为随机变量,且服从正态分布(如果不服从正态分布,可采用Spearman秩相关系数、Kendall秩相关系数等)。而回归分析中,对于I型回归,自变量为普通变量,因变量为服从正态分布的随机变量;对于II型回归,自变量和因变量均为服从正态分布的随机变量。如果是模型I回归分析,就不可能回答变量闻的“相关性”问题,因为普通变量与随机变量间不存在“相关性”这一概念,也不能采用相关分析。如果是模型Ⅱ回归分析,由于2个随机变量客观上存在“相关性”,但回归分析方法本身不能提供自变量和因变量间相关关系的准确检验手段,因此,若以预测为目的,最好不提“相关性”问题:若以探索两者的“共变趋势”为目的。应改用相关分析网。(5)对于同一数据资料,相关分析只能计算一个相关系数。而II型回归可以计算由石推Y和由Y推菇的2个回归方程.但两者不是反函数的关系。且要注意回归分析是否有实际意义。(6)回归分析只能在定距(比)变量间进行,而相关分析可以在4个层次的变量(定类变量、定序变量、定距变量和定比变量)间进行,定类变量和定序变量的相关分析(其相关系数不是Pearson相关系数,而是其他相关系数),与回归分析没有任何关系。2相关系数和决定系数的表达现状在编辑加工论文和阅读文献的过程中。关于相关系数和决定系数的表达存在如下一些问题。先给出几个例子。例l“用拟一级动力学模型拟合hl(C/Co)-75-科技编辑研究随反应时间变化的规律,表观速率常数kl及相关系数R2见表3。”统计学教科书和学术论文中.相关系数的名称众多,没有统一,如可决系数明、测定系数嘲、判定系数(日、确定系数门或判断系数等。作者利用《中国知网:》对相关系数和决定系数名称的使用频率进行了检索统计.结果见表l。可以看出,决定系数的名称有6种之多,在期刊论文中都出现过。而其中决定系数出现频率较大。同一个量有各种不同的名称易引起混乱,建议统一为“决定系数”。检索条件:中国期刊全文数据库.检索年份为2007年,范围为全部期刊,精确匹配,全文检索。(5)将“回归直线(曲线)图(表)”称为“相关性图(表)”或“相关关系图(表)”,如例3、4、5。如果是相关分析,就应给出相关系数r和p值;如果是回归分析,就应给出回归方程和决定系数R:。如果既有相关分析,又有回归分析,应该分开说明两变量相关关系,相关分析和回归分析互相补充,而不能将二者混淆。(6)根据回归分析的结果判断2个变量问存在的相关关系,如例6和例7。判断两变量正、负相关以及显著性是相关分析的结果。回归分析不能得到两变量是否相关及相关程度的结论。3建议与对策(1)建议作者选择专业的统计分析软件,如SPSS(StatisticalPackagefortheSocialSci-例2“表2土壤Cp吸附等温线拟合参数”(表中给出了拟合方程和r)。“从表2可知,由相关系数来判断,Imngmuir方程对Cp的等温吸附拟合最好。”例3“表2土壤磷酸酶活性与土壤N20排放量的相关性分析”(表中给出了拟合方程,R2和尺等)。例4“图6DOC与PCBs的相关性”(图中给出了拟合直线,r,p等)。例5“图1久效磷浓度与吸光度的相关曲线”(图中给出了拟合方程和R2)。例6“DOC浓度与月经流量间有弱负相关(DOC=0.000于33Q+I.8,R2=o.31,n=22,p<0.01o”例7“简单线性回归分析表明。微团聚体对Cu“的最大吸附量与有机炭和游离氧化铁的含量呈显著正相关。”(1)将决定系数R:称为相关系数或相关系数的平方。如例1。回归分析中的尺:在数学上恰好是Pearson相关系数r的平方。但对于自变量是普通变量、因变量为随机变量的模型I回归分析。2个变量之间的“相关性”概念根本不存在。应将例l中的“相关系数”改为“决定系数”。(2)符号使用混乱。如相关系数r、相关系数R、决定系数r2、决定系数R:。鉴于相关分析与回归分析的本质区别.建议相关系数用r表示,决定系数用R:表示。(3)混淆相关与回归的概念,如例2。吸附等温线方程为回归分析的结果。应给出R2,而不是r。且应从R2判断拟合效果。(4)决定系数的名称繁多。不统一。在各类ence)和SAS(StatisticalAnalysisSystem)o在国际学术界有条不成文的规定.凡是用SPsS和SAS统计分析的结果.在国际学术交流中可以不必说明算法嘲。因此。考虑到工作效率和算法的可靠性、通用性以及可比性,作者不应自己编程进行计算和采用简单的功能有限的软件,如Excel。衰1相关系数和决定系数等名称使用频率统计检索条件:中国期刊全文数据库,检索年份为2007年,范围为全部期刊,精确匹配,全文检索。-76-长江流域暨西北地区2008年期刊学术年会(2)期刊编辑人员应加强对相关统计学知识的学习,对论文严格把关。如果存在问题的论文被发表.那么作者以后还会犯同样的错误,读者也可能会照着错误的方法去做。如果在论文中发现统计学错误。就应该要求作者重新进行分析。(3)在给审稿人的审稿单中增加统计学方面的审查内容。对审稿人提出审查统计学内容,不仅可以发现论文中的统计学错误,如果审稿人对统计学知识有所欠缺,也会促进其进一步学习。以完成审稿任务。(4)重视与作者进行沟通。编辑加工是保证论文质量的一道重要工序,在加工过程中,对有疑问的统计学问题应及时与作者进行沟通。对作者修回的稿件。要认真分析其修改内容,看其统计学处理是否恰当,是否存在分析的前提等。(5)在期刊上增设相关栏目,进行专题讲座,提高作者和读者应用统计学的能力。多数学术性的期刊。其作者中有相当一部分是在校硕士生和博士生.虽然都学习过统计学知识,但有的教科书对问题的分析不够细致,有的可能还有错误,因此,二次学习非常必要。各期刊应有目的地增设相关栏目.对本期刊论文经常发现的统计学错误有针对性地进行分析和介绍,强化作者正确应用统计学知识。(6)在征稿须知中明确相关系数和决定系数的符号。应用前提以及二者的区别和联系等。征稿须知一般都比较简短.不可能进行详细的规定(国外一些期刊则很详细),因此,应在须知中涉及相关内容。并给出可以进一步参考的指示.如可以制定详细的投稿指南。指示国家标准、参考文献、相关网页等。参考文献【l】GB3358—82统计学名词及符号【S】.【2】陶澍.应用数理统计方法【M】.flBg:中国环境科学出版杜.1994.【3】张利田,卜庆杰,杨桂华,等.环境科学领域学术论文中常用数理统计方法的正确使用问题叨.环境科学学报,2007,27(1):171—173.【4】李博纳,赵新泉.概率论与数理统计【M】.北京:高等教育出版社。2006.【5】张小蒂应用回归分析【M】.杭州:浙江大学出版社,1991.【6】叶慈南,曹伟丽.应用数理统计【M】.北京:机械工业出版社.2004.【7】周富臣,王生辉,易英,等.常用数理统计方法及应用实例[M1.北京:中国计量出版社.2006.【8】阮桂海.SAS统计分析实用大全[明.北京:清华大学出版社。2003..-77—相关系数与决定系数辨析

作者:作者单位:

王亚军

北京理工大学《安全与环境学报》杂志社,北京 100081

1. 张利田.卜庆杰.杨桂华.刘秀兰 环境科学领域学术论文中常用数理统计方法的正确使用问题[期刊论文]-环境科学学报2007,27(1)

2. 李钢 关于偏相关系数计算思想的思考[期刊论文]-商场现代化2008(8)

引用本文格式:王亚军 相关系数与决定系数辨析[会议论文] 2008

因篇幅问题不能全部显示,请点此查看更多更全内容