自由度の統計では、ランダムベクトルの独立したコンポーネントの数です。ベクトルにn個のコンポーネントがあり、そのコンポーネントに関連するp線形方程式がある場合、自由度はnpです。
自由度の概念は理論力学にも現れます。自由度は、粒子が移動する空間の寸法から結合数を引いたものにほぼ相当します。
図1.振り子は2次元で移動しますが、半径Lの円弧を強制的に移動するため、自由度は1つだけです。出典:F. Zapata。
この記事では、統計に適用される自由度の概念について説明しますが、機械的な例は幾何学的な形で視覚化する方が簡単です。
自由度の種類
適用される状況に応じて、自由度の数を計算する方法は異なる場合がありますが、基本的な考え方は常に同じです。つまり、全体の次元から制約の数を差し引いたものです。
機械式の場合
垂直xy平面(2次元)で移動する弦(振り子)に結び付けられた振動粒子を考えてみましょう。ただし、パーティクルは弦の長さと等しい半径の円周上を強制的に移動します。
パーティクルはそのカーブ上でのみ移動できるため、自由度は1です。これは図1で確認できます。
自由度の数を計算する方法は、次元の数から制約の数を引いたものの差を取ることです。
自由度:= 2(寸法)-1(合字)= 1
結果に到達するためのもう1つの説明は次のとおりです。
-2次元の位置は座標(x、y)の点で表されることがわかっています。
-しかし、点は変数xの与えられた値に対する円周の方程式(x 2 + y 2 = L 2)に準拠する必要があるため、変数yは上記の方程式または制限によって決定されます。
このように、変数の1つだけが独立しており、システムには1つの自由度があります。
ランダムな値のセット
概念の意味を説明するために、ベクトル
x =(x 1、x 2、…、x n)
n個の正規分布ランダム値のサンプルを表します。この場合、ランダムベクトルxにはn個の独立した成分があるため、xはn自由度を持つと言われます。
残差のベクトルrを作成してみましょう
R =(X 1 -
どこ
だから合計
(X 1 -
これは、残基のベクトルrの要素における制限(またはバインディング)を表す方程式です。これは、ベクトルrのn-1個の成分が既知である場合、制限方程式が未知の成分を決定するためです。
したがって、制限のある次元nのベクトルr:
Σは、(X I -
(n-1)の自由度があります。
ここでも、自由度の数の計算は次のように適用されます。
自由度:= n(寸法)-1(拘束)= n-1
例
分散と自由度
分散s 2は、n個のデータのサンプルの偏差(または残差)の二乗の平均として定義されます。
s 2 =(r • r)/(n-1)
ここで、rは残差のベクトルr =(x1-
S 2 =Σ(X I -
いずれの場合でも、残差の2乗の平均を計算する場合、前のセクションで説明したように、ベクトルrの自由度は( n-1)。
分散計算の場合、(n-1)ではなくnで除算すると、結果には50未満のnの値に対して非常に有意なバイアスが生じます。
文献では、母集団の分散に関して、分散式も(n-1)ではなく除数nで表示されます。
しかし、ベクトルrで表される残差の確率変数のセットは、次元nを持っていますが、自由度は(n-1)しかありません。ただし、データの数が十分に多い場合(n> 500)、両方の式が同じ結果に収束します。
計算機とスプレッドシートは、分散と標準偏差(分散の平方根)の両方のバージョンを提供します。
ここで示した分析を考慮して、分散または標準偏差を計算する必要があるたびに、常に(n-1)のバージョンを選択して、偏った結果を回避することをお勧めします。
カイ二乗分布
連続確率変数の一部の確率分布は、自由度と呼ばれるパラメーターに依存します。これは、カイ2乗分布(χ2 )の場合です。
このパラメーターの名前は、この分布が適用される基になるランダムベクトルの自由度に由来しています。
サイズがnのサンプルが取得されたg個の母集団があるとします。
X 1 =(x1 1、x1 2、…..x1 n)
X2 =(x2 1、x2 2、…..x2 n)
…。
X j =(xj 1、xj 2、…..xj n)
…。
Xg =(xg 1、xg 2、…..xg n)
平均を持つ母集団j
標準化または正規化された変数zj iは、次のように定義されます。
ZJ 私は XJ(= I -
そして、ベクトルZjは次のように定義されます:
Zj =(zj 1、zj 2、…、zj i、…、zj n)であり、標準化された正規分布N(0,1)に従います。
したがって、変数:
Q =((z1 1 ^ 2 + z2 1 ^ 2 +…。+ Zg 1 ^ 2)、…。、(Z1 n ^ 2 + z2 n ^ 2 +…。+ Zg n ^ 2))
χは以下の2自由gの度のカイ二乗分布と呼ばれる(G)分布。
仮説検定(解答例あり)
特定のランダムデータセットに基づいて仮説を検定する場合、カイ2乗検定を適用するために自由度gの数を知る必要があります。
図2.アイスクリームFLAVORの好みと顧客の性別の間に関係はありますか?出典:F. Zapata
例として、特定のアイスクリームパーラーの男女間のチョコレートまたはストロベリーアイスクリームの好みについて収集されたデータを分析します。男性と女性がイチゴまたはチョコレートを選択する頻度を図2にまとめます。
まず、期待される頻度の表が計算されます。これは、行の合計に列の合計を掛けて、合計データで割って作成されます。結果を次の図に示します。
図3.観測された頻度に基づく予想頻度の計算(図2の青色の値)。出典:F. Zapata
次に、次の数式を使用して、(データから)カイ二乗が計算されます。
χ 2 =Σ(F O - F E)2 / F E
ここで、F oは観測された周波数(図2)であり、F eは期待される周波数(図3)です。合計は、すべての行と列に渡ります。この例では、4つの項が与えられます。
あなたが得る操作をした後:
χ 2 = 0.2043。
ここで、自由度の数gに依存する理論的なカイ二乗と比較する必要があります。
私たちの場合、この数は次のように決定されます。
g =(#行-1)(#列-1)=(2-1)(2-1)= 1 * 1 = 1。
この例の自由度gは1であることがわかります。
有意水準1%の帰無仮説(H0:TASTEとGENDERの間に相関関係はない)を確認または拒否する場合、理論的なカイ二乗値は自由度g = 1で計算されます。
累積頻度(1-0.01)= 0.99、つまり99%になる値が求められます。この値(テーブルから取得できます)は6,636です。
理論的なChiが計算されたChiを超えると、帰無仮説が検証されます。
つまり、収集されたデータでは、変数TASTEとGENDERの間に関係は見られません。
参考文献
- Minitab。自由度は何ですか?リカバリー元:support.minitab.com。
- ムーア、デビッド。(2009)基本的な応用統計。Antoni Boschエディター。
- リー、ジェニファー。統計モデルの自由度を計算する方法。から回復:geniolandia.com
- ウィキペディア。自由度(統計)。から回復:es.wikipedia.com
- ウィキペディア。自由度(物理的)。から回復:es.wikipedia.com