決意の係数は、二つの変数を有するデータセットのフィットの回帰直線をたどる点(X、Y)の割合を表す0と1の間の数です。
これは、適合度とも呼ばれ、R 2で表されます。それを計算するために、回帰モデルによって推定されたデータŶiの分散とデータの各Xiに対応するデータYiの分散との間の商が取られます。
R 2 =Sŷ/ Sy
図1. 4組のデータの相関係数。出典:F. Zapata
データの100%が回帰関数の線上にある場合、決定係数は1になります。
逆に、データのセットと特定のフィット関数について、係数R 2が0.5に等しいことが判明した場合、フィットは50%満足または良好であると言えます。
同様に、回帰モデルが0.5未満のR 2値を生成する場合、これは、選択された調整関数がデータに十分に適合していないことを示しているため、別の調整関数を検索する必要があります。
また、共分散または相関係数がゼロになる傾向がある場合、データ内の変数XとYは無関係であるため、R 2もゼロになる傾向があります。
決定係数の計算方法は?
前のセクションでは、決定係数は、分散間の商を見つけることによって計算されると述べました。
-変数Yの回帰関数によって推定
-Nデータペアの変数Xiのそれぞれに対応する変数Yiのそれ。
数学的には、次のようになります。
R 2 =Sŷ/ Sy
この式から、R 2は回帰モデルによって説明される分散の割合を表すことになります。または、R 2は、前の式と完全に等価な次の式を使用して計算できます。
R 2 = 1-(Sε/ Sy)
ここで、Sεは残差の分散εi=Ŷi-Yiを表し、SyはデータのYi値のセットの分散です。Ŷiを決定するために、回帰関数が適用されます。これは、Ŷi= f(Xi)であることを確認することを意味します。
データセットYiの分散(iは1からN)は、次のように計算されます。
Sy =
次に、SŷまたはSεについても同様に進めます。
実例
決定係数の計算方法の詳細を示すために、次の4組のデータのセットを使用します。
(X、Y):{(1、1); (2. 3); (3、6)および(4、7)}。
このデータセットには、最小二乗法を使用して得られる線形回帰フィットが提案されています。
f(x)= 2.1 x-1
この調整機能を適用すると、トルクが取得されます。
(X、Ŷ):{(1、1.1); (2、3.2); (3、5.3)および(4、7.4)}。
次に、XとYの算術平均を計算します。
分散Sy
Sy = /(4-1)=
= = 7,583
分散Sŷ
Sŷ= /(4-1)=
= = 7.35
決定係数R 2
R 2 =Sŷ/ Sy = 7.35 / 7.58 = 0.97
解釈
前のセグメントで検討された事例の決定係数は、0.98でした。つまり、関数による線形調整:
f(x)= 2.1x-1
最小二乗法を使用して得られたデータを説明する上で、98%の信頼性があります。
決定係数に加えて、線形相関係数またはピアソン係数としても知られています。この係数は、rとして示され、次の関係によって計算されます。
r = Sxy /(Sx Sy)
ここで、分子は変数XとYの間の共分散を表し、分母は変数Xの標準偏差と変数Yの標準偏差の積です。
ピアソンの係数は、-1と+1の間の値を取ることができます。この係数が+1になる傾向がある場合、XとYの間に直接線形相関があります。代わりに-1になる傾向がある場合、線形相関がありますが、Xが大きくなるとYは減少します。最後に、それは0に近く、2つの変数間に相関関係はありません。
決定係数がピアソン係数の2乗と一致するのは、最初の計算が線形近似に基づいて計算された場合のみであることに注意してください。ただし、この等式は他の非線形近似では無効です。
例
-例1
高校生のグループは、振り子の長さの関数として振り子の期間の経験則を決定しようと試みました。この目的を達成するために、彼らは一連の長さの振子の振動時間を測定する一連の測定を実行し、次の値を取得します。
長さ(m) | 期間(s) |
---|---|
0.1 | 0.6 |
0.4 | 1.31 |
0.7 | 1.78 |
1 | 1.93 |
1.3 | 2.19 |
1.6 | 2.66 |
1.9 | 2.77 |
3 | 3.62 |
データの散布図を作成し、回帰による線形近似を実行することが要求されます。また、回帰方程式とその決定係数を示します。
解決
図2.演習1のソリューショングラフ。出典:F. Zapata。
かなり高い決定係数(95%)が観察できるため、線形フィットが最適であると考えられます。ただし、ポイントを一緒に表示すると、ポイントは下に湾曲する傾向があるように見えます。この詳細は線形モデルでは考慮されていません。
-例2
例1と同じデータについて、データの散布図を作成します。この場合、例1とは異なり、潜在的な関数を使用して回帰調整が要求されます。
図3.演習2のソリューショングラフ。出典:F. Zapata。
フィット関数とその決定係数R 2も示します。
解決
ポテンシャル関数は、f(x)= Ax Bの形式です。ここで、AとBは、最小二乗法によって決定される定数です。
前の図は、潜在的な関数とそのパラメーター、および非常に高い値の99%の決定係数を示しています。データがトレンドラインの曲率に従っていることに注意してください。
-例3
例1と例2の同じデータを使用して、2次多項式近似を実行します。グラフ、フィット多項式、および対応する決定係数R 2を表示します。
解決
図4.演習3のソリューショングラフ。出典:F. Zapata。
2次多項式フィットを使用すると、データの曲率によくフィットする傾向線を確認できます。また、決定係数は線形近似を上回り、潜在的な近似を下回っています。
フィット比較
示されている3つのフィットのうち、決定係数が最も高いものは潜在的なフィットです(例2)。
潜在的な適合は、振り子の物理理論と一致します。これは、既知のように、振り子の周期がその長さの平方根に比例することを確立します。比例定数は2π/√gであり、gは重力加速度です。
このタイプの潜在的な適合は、決定係数が最も高いだけでなく、指数と比例定数が物理モデルと一致します。
結論
-回帰調整は、最小二乗法を使用してデータを説明することを目的とした関数のパラメーターを決定します。この方法は、データのXi値について、調整Y値とデータのYi値の間の2次差の合計を最小化することで構成されます。これにより、調整機能のパラメーターが決まります。
-これまで見てきたように、最も一般的な調整関数は直線ですが、調整は多項式、ポテンシャル、指数関数、対数関数などにもなるため、それだけではありません。
-いずれの場合も、決定係数はデータと調整のタイプに依存し、適用された調整の良さを示します。
-最後に、決定係数は、与えられたXの調整のŶ値に対するデータのY値間の全変動のパーセンテージを示します。
参考文献
- ゴンザレスC.一般統計。回復元:tarwi.lamolina.edu.pe
- IACS。アラゴンの健康科学研究所。リカバリー元:ics-aragon.com
- Salazar C.およびCastillo S.統計の基本原則。(2018)。から回復:dspace.uce.edu.ec
- スーパープロフ。決定係数。回収元:superprof.es
- USAC。記述統計マニュアル。(2011)。回収元:statistics.ingenieria.usac.edu.gt。
- ウィキペディア。決定係数。回復元:es.wikipedia.com。