查看“斯皮尔曼等级相关系数”的源代码
←
斯皮尔曼等级相关系数
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑本页:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
[[Image:spearman fig1.svg|300px|right|thumb|斯皮尔曼等级相关系数为1表明两个被比较的变量是相关的,即使它们之间的关系并非线性的。 相较而言, 它并未给出完整的皮尔逊相关系数。]][[Image:spearman fig2.svg|300px|right|thumb|当数据大致分布并没有明显的离群点,皮尔逊相关系数的值和斯皮尔曼相关系数的值是相似的。]] [[Image:spearman fig3.svg|300px|right|thumb|对样本中的显著离群点,斯皮尔曼相关系数比皮尔逊相关系数不敏感。]] 在 [[统计学]]中, 以[[查尔斯·斯皮尔曼]]命名的'''斯皮尔曼等级相关系数''', 经常用希腊字母 [[rho (letter)|<math>\rho</math>]] (rho) 或者 <math>r_s</math>表示。 它是衡量两个[[变量]]的[[依赖性]]的 [[無母數]] 指标。 它利用[[单调]]方程评价两个统计变量的相关性。 如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为 +1 或 −1 。 ==定义和计算== 斯皮尔曼相关系数被定义成 [[等级变量]]之间的[[皮尔逊相关系数]]。<ref name="myers2003">{{Citation | last1=Myers | first1=Jerome L. | first2=Arnold D. |last2= Well | title=Research Design and Statistical Analysis | publisher=Lawrence Erlbaum | year=2003 | edition=2nd | isbn=0-8058-4037-0 | pages=508}}</ref> 对于样本容量为 ''n''的样本, ''n''个 [[原始数据]] <math>X_i, Y_i</math> 被转换成等级数据 <math>x_i, y_i</math>, 相关系数ρ为 :<math> \rho = \frac{\sum_i(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_i (x_i-\bar{x})^2 \sum_i(y_i-\bar{y})^2}}.</math> 原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。 如下表所示: {|class="wikitable" !变量 <math>X_i</math> !! 降序排名 !!<math>x_i</math>的排名 |- |0.8||5||5 |- |1.2||4||<math>\frac{4+3}{2}=3.5\ </math> |- |1.2||3||<math>\frac{4+3}{2}=3.5\ </math> |- |2.3||2||2 |- |18||1||1 |} 实际应用中, 变量间的连结是无关紧要的, 于是可以通过简单的步骤计算 ρ.<ref name="myers2003"/><ref>Maritz. J.S. (1981) ''Distribution-Free Statistical Methods'', Chapman & Hall. ISBN 0-412-15940-6. (page 217)</ref> 被观测的两个变量的等级的差值 <math>d_i = x_i - y_i</math> , 则 ρ 为 :<math> \rho = 1- {\frac {6 \sum d_i^2}{n(n^2 - 1)}}.</math> ==相关度量== {{Main|Correlation and dependence}} 度量一对观测数据的[[统计依赖性]]还有其他的几种度量指标: 在[[相关性和依赖性]]中有谈及。 其中最常用的是[[皮尔逊积矩相关系数]]。 斯皮尔曼相关也可称为 "级别相关";<ref name="Yule and Kendall">Yule, G.U and Kendall, M.G. (1950), "An Introduction to the Theory of Statistics", 14th Edition (5th Impression 1968). Charles Griffin & Co. page 268</ref> 也就是说, 被观测数据的 "等级" 被替换成 "级别"。 在连续的分布中, 被观测数据的级别,通常总是小于等级的一半。 然而,在这个案例中,级别和等级相关系数是一致的。 更一般的, 被观测数据的"级别" 与估计的总体样本的比值小于给定的值,即被观测值的一半。 也就是说,它是相应的等级系数的一种可能的解决方案。 虽然不常用, "级别相关" 还是仍然有被使用。<ref>Piantadosi, J.; Howlett, P.; Boland, J. (2007) "Matching the grade correlation coefficient using a copula with maximum disorder", ''Journal of Industrial and Management Optimization'', 3 (2), 305–312</ref> ==解释== [[Image:spearman fig5.svg|300px|right|thumb|正的斯皮尔曼相关系数反应两个变量 ''X'' 和 ''Y'' 单调递增的趋势。]][[Image:spearman fig4.svg|300px|right|thumb|负的斯皮尔曼相关系数反应两个变量 ''X'' 和 ''Y'' 单调递减的趋势。]]斯皮尔曼相关系数表明 ''X'' (独立变量) 和 ''Y'' (依赖变量)的相关方向。 如果当''X''增加时, ''Y'' 趋向于增加, 斯皮尔曼相关系数则为正。 如果当''X''增加时, ''Y'' 趋向于减少, 斯皮尔曼相关系数则为负。 斯皮尔曼相关系数为零表明当''X''增加时 ''Y''没有任何趋向性。 当''X'' 和 ''Y''越来越接近完全的单调相关时,斯皮尔曼相关系数会在绝对值上增加。 当 ''X'' 和 ''Y''完全单调相关时, 斯皮尔曼相关系数的绝对值为 1。 完全的单调递增关系意味着任意两对数据 ''X''<sub>''i''</sub>, ''Y''<sub>''i''</sub> 和 ''X''<sub>''j''</sub>, ''Y''<sub>''j''</sub>, 有 ''X''<sub>''i''</sub> − ''X''<sub>''j''</sub> 和 ''Y''<sub>''i''</sub> − ''Y''<sub>''j''</sub> 总是同号。 完全的单调递减关系意味着任意两对数据 ''X''<sub>''i''</sub>, ''Y''<sub>''i''</sub> 和 ''X''<sub>''j''</sub>, ''Y''<sub>''j''</sub>, 有 ''X''<sub>''i''</sub> − ''X''<sub>''j''</sub> 和 ''Y''<sub>''i''</sub> − ''Y''<sub>''j''</sub> 总是异号。 斯皮尔曼相关系数经常被称作 "非参数"的。 这里有两层含义。 首先, 当 ''X'' 和 ''Y''的关系是由任意 [[单调函数]]描述的,则它们是完全皮尔逊相关的。与此相应的,皮尔逊相关系数只能给出由线性方程描述的 ''X'' 和 ''Y''的相关性。其次,斯皮尔曼不需要先验知识(''也就是说'', 知道其参数)便可以准确获取''X'' 和 ''Y''的采样[[概率分布]]。 ==示例== 在此例中,我们要使用下表所给出的原始数据计算一个人的 [[智商]]和其每周花在 [[电视]]上的小时数的相关性。 {| class="wikitable" |- |[[智商]], <math>X_i</math> |每周花在电视上的小时数, <math>Y_i</math> |- |106 |7 |- |86 |0 |- |100 |27 |- |101 |50 |- |99 |28 |- |103 |29 |-12 |97 |20 |- |113 |12 |- |112 |6 |- |110 |17 |} 首先,我们必须根据以下步骤计算出 <math>d^2_i</math>,如下表所示。 # 排列第一列数据 (<math>X_i</math>)。 创建新列 <math>x_i</math> 并赋以等级值 1,2,3,...''n''。 # 然后,排列第二列数据 (<math>Y_i</math>). 创建第四列 <math>y_i</math> 并相似地赋以等级值 1,2,3,...''n''。 # 创建第五列 <math>d_i</math> 保存两个等级列的差值 (<math>x_i</math> 和 <math>y_i</math>). # 创建最后一列 <math>d^2_i</math> 保存 <math>d_i</math> 的平方. {| class="wikitable" |- |智商, <math>X_i</math> |每周花在电视上的小时数, <math>Y_i</math> |<math>x_i</math>的排名 |<math>y_i</math>的排名 |<math>d_i</math> |<math>d^2_i</math> |- |86 |0 |1 |1 |0 |0 |- |97 |20 |2 |6 | −4 |16 |- |99 |28 |3 |8 | −5 |25 |- |100 |27 |4 |7 | −3 |9 |- |101 |50 |5 |10 | −5 |25 |- |103 |29 |6 |9 | −3 |9 |- |106 |7 |7 |3 |4 |16 |- |110 |17 |8 |5 |3 |9 |- |112 |6 |9 |2 |7 |49 |- |113 |12 |10 |4 |6 |36 |} 根据 <math>d^2_i</math> 计算 <math>\sum d_i^2 = 194</math>。 样本容量''n''为 10。 将这些值带入方程 :<math> \rho = 1- {\frac {6\times194}{10(10^2 - 1)}}</math> 得 ''ρ'' = −0.175757575... ,[[P-value]] = 0.6864058 (使用 [[t分布]]) 这个值很大表明上述两个变量的关系很小。 原始数据不能用于此方程中,相应的, 应使用皮尔逊相关系数计算等级。 ==显著性的确定== 一种确定被观测数据的 ρ 值是否显著不为零(''r'' 总是有 1 ≥ ''r'' ≥ −1)的方法是计算它是否大于 ''r''的概率,作为 [[null hypothesis|原假设]],并使用[[Resampling (statistics)#Permutation tests|分层排列测试]]进行检验。 这种方法的优势之处在于它考虑了样本中的数据个数和在使用样本计算等级相关系数的风险。 另外的一种方法是使用皮尔逊积矩中使用到的[[费雪变换]]。也就是,ρ 的[[置信区间]]和[[hypothesis test|零检验]]可以通过费雪变换获得 : <math>F(r) = {1 \over 2}\ln{1+r \over 1-r} = \operatorname{arctanh}(r).</math> 如果 ''F''(''r'') 是 ''r'' 的Fisher变换, 则 :<math>z = \sqrt{\frac{n-3}{1.06}}F(r)</math> 是 ''r''的[[standard score|z-值]] ,其中,''r''在[[statistical independence|统计依赖]](ρ = 0).<ref>Choi, S.C. (1977) Test of equality of dependent correlations. ''[[Biometrika]]'', 64 (3), pp. 645–647</ref><ref>Fieller, E.C.; Hartley, H.O.; Pearson, E.S. (1957) ''Tests for rank correlation coefficients. I''. Biometrika 44, pp. 470–481</ref>的[[null hypothesis|零假设]]下 近似服从标准 [[正态分布]]。 显著性为 :<math>t = r \sqrt{\frac{n-2}{1-r^2}}</math> 其在[[null hypothesis|零假设]]下近似服从自由度为 ''n'' − 2的[[t分布]] 。<ref>Press, Vettering, Teukolsky, and Flannery (1992) ''Numerical Recipes in C: The Art of Scientific Computing, 2nd Edition'', page 640</ref> A justification for this result relies on a permutation argument.<ref>Kendall, M.G., Stuart, A. (1973)''The Advanced Theory of Statistics, Volume 2: Inference and Relationship'', Griffin. ISBN 0-85264-215-6 (Sections 31.19, 31.21)</ref> 一般地,斯皮尔曼相关系数在有三个或更多条件的情况下是有用的。并且,它预测观测数据有一个特定的顺序。 例如,在同一任务中,一系列的个体会被尝试多次,并预测在多次尝试过程中,性能会得到提升。在这种情况下,对条件间趋势的显著性检验由E. B. Page<ref>{{cite journal |author=Page, E. B. |title=Ordered hypotheses for multiple treatments: A significance test for linear ranks |journal=Journal of the American Statistical Association |volume=58 |pages=216–230 |year=1963 |doi=10.2307/2282965 |issue=301}} </ref> 发展了,并通常称为给定序列下的 [[Page's trend test|Page趋势测验]]。 == 基于斯皮尔曼相关系数的一致性分析 == 经典的 [[一致性分析]] 是一种统计方法,它给两个标称变量赋给一个分数。 通过这种方法, 两个变量间的[[皮尔逊相关系数]]被最大化了。 有一种被称为[[级别相关分析]]的等价方法, 它最大化了斯皮尔曼相关系数或 [[肯德尔相关系数]].<ref>{{cite book|last=Kowalczyk|first=T.|coauthors=Pleszczyńska E. , Ruland F. (eds.)| year=2004|title=Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations|series=Studies in Fuzziness and Soft Computing vol. 151|publisher=Springer Verlag|location=Berlin Heidelberg New York|isbn=978-3-540-21120-4}}</ref> ==参见== {{Portal|Statistics}} {{Wikiversity}} * [[Kendall tau rank correlation coefficient]] * [[Rank correlation]] * [[Chebyshev's sum inequality]], [[rearrangement inequality]] (These two articles may shed light on the mathematical properties of Spearman's ρ.) * [[Pearson product-moment correlation coefficient]], a similar correlation method that measures the "linear" relationships between the raw numbers rather than between their ranks. * [[圖模式]] * [[马尔可夫链]] * [[马尔可夫逻辑网络]] ==引文== {{More footnotes|date=2009年11月}} <div class="references-small"> {{Reflist}} * G.W. Corder, D.I. Foreman, "Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach", Wiley (2009) * C. Spearman, "The proof and measurement of association between two things" Amer. J. Psychol., 15 (1904) pp. 72–101 * M.G. Kendall, "Rank correlation methods", Griffin (1962) * M. Hollander, D.A. Wolfe, "Nonparametric statistical methods", Wiley (1973) * J. C. Caruso, N. Cliff, "Empirical Size, Coverage, and Power of Confidence Intervals for Spearman's Rho", Ed. and Psy. Meas., 57 (1997) pp. 637–654 </div> ==外部链接== * [http://www.crystalballservices.com/Resources/ConsultantsCornerBlog/EntryId/73/Copulas-Vs-Correlation.aspx "Understanding Correlation vs. Copulas in Excel"] by Eric Torkia, Technology Partnerz 2011 *[http://www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htm Table of critical values of ρ for significance with small samples] *[http://statistics.laerd.com/calculators/spearmans-rank-order-correlation-calculator.php A calculator that shows the working out for Spearman's correlation] *[http://www.maccery.com/maths Spearman's rank online calculator] *[https://web.archive.org/web/20120420220419/http://faculty.vassar.edu/lowry/webtext.html Chapter 3 part 1 shows the formula to be used when there are ties] *[http://udel.edu/~mcdonald/statspearman.html Spearman's rank correlation]: Simple notes for students with an example of usage by biologists and a spreadsheet for [[Microsoft Excel]] for calculating it (a part of materials for a ''Research Methods in Biology'' course). {{Statistics|descriptive}} {{DEFAULTSORT:Spearman's Rank Correlation Coefficient}} [[Category:Covariance and correlation]] [[Category:Statistical dependence]] [[Category:Statistical tests]] [[Category:Non-parametric statistics]] [[Category:Article Feedback 5]]
本页使用的模板:
Template:Citation
(
查看源代码
)
Template:Cite book
(
查看源代码
)
Template:Cite journal
(
查看源代码
)
Template:Main
(
查看源代码
)
Template:More footnotes
(
查看源代码
)
Template:Portal
(
查看源代码
)
Template:Reflist
(
查看源代码
)
Template:Statistics
(
查看源代码
)
Template:Wikiversity
(
查看源代码
)
返回
斯皮尔曼等级相关系数
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息