等分散性一つ以上の観測値の全てのデータグループあれば予測統計モデルでは発生し、分散(または独立した)パターンを持つ説明変数に対しては一定のままです。
回帰モデルは、等分散性である場合とそうでない場合があります。その場合、異分散性について説明します。
図1. 5つのデータセットとそのセットの回帰適合。予測値に対する分散は、各グループで同じです。(upav-biblioteca.org)
複数の独立変数の統計的回帰モデルは、予測変数の誤差の分散(または従属変数の標準偏差)が説明変数または独立変数の値のグループごとに均一のままである場合にのみ、ホモスケダスティックと呼ばれます。
図1の5つのデータグループでは、回帰によって推定された値に対して各グループの分散が計算されており、各グループで同じであることがわかります。さらに、データは正規分布に従うと仮定されます。
グラフィカルレベルでは、点は、回帰当てはめによって予測された値の周りに均等に散らばっているか、散らばっており、回帰モデルは説明変数の範囲に対して同じエラーと妥当性を持っています。
等分散性の重要性
予測統計における同等分散性の重要性を説明するには、反対の現象である異等分散性と対比する必要があります。
同種分散性と異分散性
等分散性が存在する図1の場合、次のことが当てはまります。
Var((y1-Y1); X1)≈Var((y2-Y2); X2)≈……Var((y4-Y4); X4)
Var((yi-Yi); Xi)が分散を表す場合、ペア(xi、yi)はグループiからのデータを表し、Yiはグループの平均値Xiの回帰によって予測される値です。グループiからのnデータの分散は、次のように計算されます。
Var((yi-Yi); Xi)= ∑j(yij-Yi)^ 2 / n
逆に、不等分散性が発生すると、回帰モデルは計算された領域全体に対して有効にならない可能性があります。図2は、この状況の例を示しています。
図2.異分散性を示すデータのグループ。(独自の詳細)
図2は、3つのデータグループと、線形回帰を使用したセットの適合を表しています。2番目と3番目のグループのデータは、最初のグループよりも分散していることに注意してください。図2のグラフには、各グループの平均値とそのエラーバー±σも示され、各データグループのσ標準偏差が示されています。標準偏差σは分散の平方根であることを忘れないでください。
不等分散性の場合、説明変数または独立変数の値の範囲で回帰推定誤差が変化し、この誤差が非常に大きい区間では、回帰予測が信頼できないか、適用できません。
回帰モデルでは、誤差または残差(および-Y)は、独立変数の値の間隔全体にわたって等しい分散(σ^ 2)で分布する必要があります。このため、優れた回帰モデル(線形または非線形)は、等分散性テストに合格する必要があります。
ホモセダスティシティーテスト
図3に示す点は、住宅の価格(ドル単位)の関係を、平方メートル単位のサイズまたは面積の関数として調べる調査のデータに対応しています。
テストする最初のモデルは、線形回帰のモデルです。まず、フィットの決定係数R ^ 2は非常に高い(91%)ので、フィットは満足できると考えることができます。
ただし、2つの領域は調整グラフから明確に区別できます。そのうちの1つ、楕円で囲まれた右側のものは、等分散性を満たしますが、左側の領域は、等分散性をもちません。
これは、1800 m ^ 2から4800 m ^ 2の範囲では回帰モデルの予測は適切で信頼できるが、この領域の外側では非常に不十分であることを意味します。異分散ゾーンでは、エラーが非常に大きいだけでなく、データも線形回帰モデルによって提案されたものとは異なる傾向に従っているようです。
図3.住宅価格と面積、および線形回帰による予測モデル。同分散性ゾーンと異分散性ゾーンを示しています。(独自の詳細)
データの散布図は、その等分散性の最も単純で視覚的なテストですが、図3に示す例のように明白でない場合は、補助変数を使用したグラフに頼る必要があります。
標準化された変数
等分散性が満たされている領域と満たされていない領域を分離するために、標準化された変数ZResおよびZPredが導入されています。
ZRes = Abs(y-Y)/σ
ZPred = Y /σ
Yは回帰予測の値であるため、これらの変数は適用された回帰モデルに依存することに注意してください。以下は、同じ例の散布図ZResとZPredです。
図4.等分散ゾーンでは、予測領域でZResが均一かつ小さいままであることに注意してください(独自の詳細)。
図4の標準化された変数のグラフでは、残差が小さく均一である領域とそうでない領域が明確に分離されています。最初のゾーンでは、等分散性が満たされますが、残留誤差が非常に変動しやすく、大きい領域では、不等分散性が満たされます。
使用されるモデルには潜在的な関数が含まれるため、図3の同じデータグループに回帰調整が適用されます。この場合、調整は非線形です。結果を次の図に示します。
図5.非線形回帰モデルとのデータフィッティングにおける同等分散性と異等分散性の新しいゾーン。(独自の詳細)。
図5のグラフでは、等分散領域と異分散領域が明確に示されています。また、これらのゾーンは、線形フィットモデルで形成されたゾーンと交換されました。
図5のグラフでは、近似の決定係数がかなり高い(93.5%)場合でも、モデルが説明変数の区間全体に対して適切ではないことがわかります。 2000 m ^ 2を超えると、異分散性を示します。
等分散性の非グラフィカルテスト
同種分散性が満たされているかどうかを確認するために最も使用される非グラフィカルテストの1つは、Breusch-Paganテストです。
このテストのすべての詳細がこの記事で示されるわけではありませんが、その基本的な特性とその手順の概略は次のとおりです。
- 回帰モデルはn個のデータに適用され、その分散はモデルσ^ 2 = ∑j(yj-Y)^ 2 / nによって推定された値に対して計算されます。
- 新しい変数が定義されますε=((yj-Y)^ 2)/(σ^ 2)
- 同じ変数に新しい回帰モデルが適用され、その新しい回帰パラメーターが計算されます。
- 臨界値のカイ二乗(χ^ 2)が決定されます。これは、変数εの新しい残差の二乗の合計の半分です。
- カイ二乗分布表は、表のx軸上の有意水準(通常5%)と自由度(回帰変数の数-単位)を考慮して使用され、ボード。
- 手順3で取得した臨界値は、表にある値と比較されます(χ^ 2)。
- 臨界値が表の値を下回っている場合、帰無仮説があります:等分散性がある
- 臨界値が表の値を超えている場合、対立仮説があります。つまり、等分散性はありません。
SPSS、MiniTab、R、Python Pandas、SAS、StatGraphicなどの統計ソフトウェアパッケージのほとんどには、Breusch-Paganホモスケダスティシティテストが組み込まれています。分散の均一性を検証するもう1つのテストは、Leveneテストです。
参考文献
- ボックス、ハンター、ハンター。(1988)研究者のための統計。エディターを逆にしました。
- ジョンストン、J(1989)。計量経済学の方法、Vicens -Vivesエディター。
- ムリーリョとゴンサレス(2000)。計量経済学マニュアル。ラスパルマスデグランカナリア大学。から回収:ulpgc.es。
- ウィキペディア。ホモセダスティシティ。から回復:es.wikipedia.com
- ウィキペディア。ホモセダスティシティ。から回復:en.wikipedia.com