主題
Search

相關係數


相關係數,有時也稱為互相關係數、皮爾遜相關係數 (PCC)、皮爾遜 r、皮爾遜積矩相關係數 (PPMCC) 或雙變數相關,是一個用於衡量對原始資料進行最小二乘擬合質量的量。 為了定義相關係數,首先考慮一組 n 個數據點 (x_i,y_i) 圍繞各自均值的平方和 ss_(xx)ss_(xy)ss_(yy)

ss_(xx)=sum(x_i-x^_)^2
(1)
=sumx^2-2x^_sumx+sumx^_^2
(2)
=sumx^2-2nx^_^2+nx^_^2
(3)
=sumx^2-nx^_^2
(4)
ss_(yy)=sum(y_i-y^_)^2
(5)
=sumy^2-2y^_sumy+sumy^_^2
(6)
=sumy^2-2ny^_^2+ny^_^2
(7)
=sumy^2-ny^_^2
(8)
ss_(xy)=sum(x_i-x^_)(y_i-y^_)
(9)
=sum(x_iy_i-x^_y_i-x_iy^_+x^_y^_)
(10)
=sumxy-nx^_y^_-nx^_y^_+nx^_y^_
(11)
=sumxy-nx^_y^_.
(12)

這些量只是 XY方差協方差的未歸一化形式,由下式給出

ss_(xx)=Nvar(X)
(13)
ss_(yy)=Nvar(Y)
(14)
ss_(xy)=Ncov(X,Y).
(15)

對於線性最小二乘擬合,方程中的係數 b

 y=a+bx
(16)

由下式給出

b=(nsumxy-sumxsumy)/(nsumx^2-(sumx)^2)
(17)
=(ss_(xy))/(ss_(xx)),
(18)

以及方程中的係數 b^'

 x=a^'+b^'y
(19)

由下式給出

 b^'=(nsumxy-sumxsumy)/(nsumy^2-(sumy)^2).
(20)
CorrelationCoefficient

相關係數 r (有時也表示為 R) 然後由下式定義

r^2=bb^'
(21)
=(ss_(xy)^2)/(ss_(xx)ss_(yy)).
(22)

相關係數也稱為積矩相關係數或皮爾遜相關。 上圖顯示了對噪聲資料進行線性擬合的相關係數。

相關係數具有重要的物理意義。 為了理解這一點,定義

 A=[sumx^2-nx^_^2]^(-1)
(23)

並將 y_i 的“期望”值表示為 y^^_i。 然後 y^^_i 的和為

y^^_i=a+bx_i
(24)
=y^_-bx^_+bx_i
(25)
=y^_+b(x_i-x^_)
(26)
=A(y^_sumx^2-x^_sumxy+x_isumxy-nx^_y^_x_i)
(27)
=A[y^_sumx^2+(x_i-x^_)sumxy-nx^_y^_x_i]
(28)
sumy^^_i=A(ny^_sumx^2-n^2x^_^2y^_)
(29)
sumy^^_i^2=A^2[ny^_^2(sumx^2)^2-n^2x^_^2y^_^2(sumx^2)-2nx^_y^_(sumxy)(sumx^2)+2n^2x^_^3y^_(sumxy)+(sumx^2)(sumxy)^2-nx^_^2(sumxy)]
(30)
sumy_iy^^_i=Asum[y_iy^_sumx^2+y_i(x_i-x^_)sumxy-nx^_y^_x_iy_i]
(31)
=A[ny^_^2sumx^2+(sumxy)^2-nx^_y^_sumxy-nx^_y^_(sumxy)]
(32)
=A[ny^_^2sumx^2+(sumxy)^2-2nx^_y^_sumxy].
(33)

則誤差平方和為

SSE=sum(y^^_i-y^_)^2
(34)
=sum(y^^_i^2-2y^_y^^_i+y^_^2)
(35)
=A^2(sumxy-nx^_y^_)^2(sumx^2-nx^_^2)
(36)
=((sumxy-nx^_y^_)^2)/(sumx^2-nx^_^2)
(37)
=bss_(xy)
(38)
=(ss_(xy)^2)/(ss_(xx))
(39)
=ss_(yy)r^2
(40)
=b^2ss_(xx),
(41)

殘差平方和為

SSR=sum(y_i-y^^_i)^2
(42)
=sum(y_i-y^_+bx^_-bx_i)^2
(43)
=sum[y_i-y^_-b(x_i-x^_)]^2
(44)
=sum(y_i-y^_)^2+b^2sum(x_i-x^_)^2-2bsum(x_i-x^_)(y_i-y^_)
(45)
=ss_(yy)+b^2ss_(xx)-2bss_(xy).
(46)

但是

b=(ss_(xy))/(ss_(xx))
(47)
r^2=(ss_(xy)^2)/(ss_(xx)ss_(yy)),
(48)

所以

SSR=ss_(yy)+(ss_(xy)^2)/(ss_(xx)^2)ss_(xx)-2(ss_(xy))/(ss_(xx))ss_(xy)
(49)
=ss_(yy)-(ss_(xy)^2)/(ss_(xx))
(50)
=ss_(yy)(1-(ss_(xy)^2)/(ss_(xx)ss_(yy)))
(51)
=ss_(yy)(1-r^2),
(52)

並且

 SSE+SSR=ss_(yy)(1-r^2)+ss_(yy)r^2=ss_(yy).
(53)

因此,相關係數 r^2 的平方由下式給出

r^2=(SSR)/(ss_(yy))
(54)
=(ss_(xy)^2)/(ss_(xx)ss_(yy))
(55)
=((sumxy-nx^_y^_)^2)/((sumx^2-nx^_^2)(sumy^2-ny^_^2)).
(56)

換句話說,r^2 是由迴歸解釋的 ss_(yy) 的比例。

如果存在完全相關性,則透過求解最佳擬合 (a,b)(a^',b^') 得到的直線重合(因為所有資料點都位於它們之上),因此求解 (◇) 中的 y 並將其等同於 (◇) 得出

 y=-(a^')/(b^')+x/(b^')=a+bx.
(57)

因此,a=-a^'/b^'b=1/b^',得出

 r^2=bb^'=1.
(58)

相關係數與原點和尺度無關,因此

 r(u,v)=r(x,y),
(59)

其中

u=(x-x_0)/h
(60)
v=(y-y_0)/h.
(61)

另請參閱

相關指數, 相關係數--雙變數正態分佈, 相關比率, 協方差, 最小二乘擬合, 迴歸係數, 斯皮爾曼等級相關係數, 方差 在 課堂中探索此主題

使用 探索

參考文獻

Acton, F. S. 直線資料分析。 New York: Dover, 1966.Edwards, A. L. "相關係數。" Ch. 4 in 線性迴歸與相關性導論。 San Francisco, CA: W. H. Freeman, pp. 33-46, 1976.Gonick, L. and Smith, W. "迴歸。" Ch. 11 in 統計學漫畫指南。 New York: Harper Perennial, pp. 187-210, 1993.Kenney, J. F. and Keeping, E. S. "線性迴歸與相關性。" Ch. 15 in 統計數學,第一部分,第三版。 Princeton, NJ: Van Nostrand, pp. 252-285, 1962.Press, W. H.; Flannery, B. P.; Teukolsky, S. A.; and Vetterling, W. T. "線性相關。" §14.5 in FORTRAN 數值食譜:科學計算的藝術,第二版。 Cambridge, England: Cambridge University Press, pp. 630-633, 1992.Snedecor, G. W. and Cochran, W. G. "樣本相關係數 r" 和 " r 的屬性。" §10.1-10.2 in 統計方法,第七版。 Ames, IA: Iowa State Press, pp. 175-178, 1980.Spiegel, M. R. "相關理論。" Ch. 14 in 機率與統計理論及問題,第二版。 New York: McGraw-Hill, pp. 294-323, 1992.Whittaker, E. T. and Robinson, G. "非正態頻率分佈的相關係數。" §166 in 觀測微積分:數值數學論著,第四版。 New York: Dover, pp. 334-336, 1967.

在 中被引用

相關係數

引用為

Weisstein, Eric W. "相關係數。" 來自 Web 資源。 https://mathworld.tw/CorrelationCoefficient.html

主題分類