統計の相関係数は、2つの量的変数XとYが線形または比例関係にある傾向を測定する指標です。
一般に、変数XとYのペアは、同じ母集団の2つの特性です。たとえば、Xは人の身長、Yは体重です。
図1. 4つのデータペア(X、Y)の相関係数。出典:F. Zapata
この場合、相関係数は、特定の母集団の身長と体重の間に比例関係に向かう傾向があるかどうかを示します。
ピアソンの線形相関係数は小文字のrで示され、その最小値と最大値はそれぞれ-1と+1です。
値r = +1は、ペア(X、Y)のセットが完全に整列し、Xが大きくなると、Yも同じ比率で大きくなることを示します。一方、r = -1の場合、ペアのセットも完全に整列しますが、この場合、Xが増加すると、同じ比率でYが減少します。
図2.線形相関係数のさまざまな値。出典:ウィキメディア・コモンズ。
一方、r = 0の値は、変数XとYの間に線形相関がないことを示します。r= +0.8の値は、ペア(X、Y)が片側に集まり、別の特定の行。
相関係数rの計算式は次のとおりです。
相関係数の計算方法は?
線形相関係数は、関数電卓、ほとんどのスプレッドシート、統計プログラムに組み込まれている統計量です。
ただし、それを定義する数式がどのように適用されるかを知っておくと便利です。このため、小さなデータセットに対して実行される詳細な計算が表示されます。
また、前のセクションで述べたように、相関係数は、共分散Sxyを変数Xの標準偏差Sxと変数YのSyの積で割ったものです。
共分散と分散
共分散Sxyは次のとおりです。
Sxy = /(N-1)
合計が1からNペアのデータ(Xi、Yi)になるところ。
変数Xの標準偏差は、データセットXiの分散の平方根で、iは1からNです。
Sx =√
同様に、変数Yの標準偏差は、データセットYiの分散の平方根で、iは1からNです。
Sy =√
実例
相関係数の計算方法を詳細に示すために、次の4組のデータのセットを取り上げます。
(X、Y):{(1、1); (2. 3); (3、6)および(4、7)}。
まず、XとYの算術平均を次のように計算します。
次に、残りのパラメータが計算されます。
共分散Sxy
Sxy = /(4-1)
Sxy = /(3)= 10.5 / 3 = 3.5
標準偏差Sx
Sx =√=√= 1.29
標準偏差Sy
Sx =√=
√= 2.75
相関係数r
r = 3.5 /(1.29 * 2.75)= 0.98
解釈
前のケースのデータセットでは、変数XとYの間に強い線形相関が見られます。これは、散布図(図1に示す)と相関係数の両方で明らかになり、結束に非常に近い値。
相関係数が1または-1に近いほど、線形回帰の結果である線にデータを適合させる意味が大きくなります。
線形回帰
線形回帰直線は、最小二乗法から得られます。ここで、回帰直線のパラメータは、推定されたY値とNデータのYiとの差の2乗の和の最小化から取得されます。
一方、最小二乗法によって得られた回帰直線y = a + bxのパラメーターaおよびbは、次のとおりです。
* b = Sxy /(Sx 2)勾配
* a =
Sxyは上で定義した共分散であり、Sx 2は上で定義した標準偏差の分散または二乗であることを思い出してください。
例
相関係数は、2つの変数間に線形相関があるかどうかを判断するために使用されます。これは、調査対象の変数が量的であり、さらに、それらが正規型分布に従うと仮定されている場合に適用できます。
例示的な例を以下に示します。肥満度の尺度は、ボディマスインデックスです。これは、人の体重をキログラムで、身長の2乗をメートル単位の2乗で割って得られます。
ボディマスインデックスと1リットルあたりのミリモルで測定した血中のHDLコレステロール濃度との間に強い相関関係があるかどうかを知りたいとします。この目的のために、533人を対象に調査が行われました。次のグラフに要約されています。各ポイントは1人のデータを表しています。
図3. 533人の患者におけるBMIおよびHDLコレステロールの研究。出典:Aragonese Institute of Health Sciences(IACS)。
グラフを注意深く観察すると、HDLコレステロール濃度とボディマスインデックスの間に一定の線形傾向(あまりマークされていない)があることがわかります。この傾向の定量的尺度は相関係数であり、この場合、r = -0.276であることが判明しました。
参考文献
- ゴンザレスC.一般統計。回復元:tarwi.lamolina.edu.pe
- IACS。アラゴンの健康科学研究所。リカバリー元:ics-aragon.com
- Salazar C.およびCastillo S.統計の基本原則。(2018)。から回復:dspace.uce.edu.ec
- スーパープロフ。相関係数。回収元:superprof.es
- USAC。記述統計マニュアル。(2011)。回収元:statistics.ingenieria.usac.edu.gt
- ウィキペディア。ピアソンの相関係数。回復元:es.wikipedia.com。