ルールスタージェスは、統計データのセットをプロットするために必要なクラスまたは範囲の数を決定するために使用される基準です。このルールは、1926年にドイツの数学者ハーバートスタージェスによって発表されました。
Sturgesは、サンプル数xに基づいて、クラスの数とその範囲の幅を見つけることができる簡単な方法を提案しました。スタージスの法則は、特に統計の分野で、特に頻度ヒストグラムを構築するために広く使用されています。
説明
Sturgesのルールは、サンプルまたは母集団を表すデータのセットを分類するために、頻度ヒストグラムに存在しなければならないクラスの数を決定するために記述統計で広く使用されている経験的方法です。
基本的に、このルールは、頻度ヒストグラムのグラフィックコンテナーの幅を決定します。
彼の規則を確立するために、ハーバートスタージスは、K番目の間隔からなる理想的な周波数図を検討しました。
そのサンプル数は、セットのサブセットを抽出できる方法の数によって与えられます。つまり、二項係数によって、次のように表されます。
式を単純化するために、彼は対数の特性を方程式の両方の部分に適用しました。
したがって、スタージスは、間隔kの最適な数が次の式で与えられることを確立しました。
次のように表すこともできます。
この式では:
-kはクラスの数です。
-Nは、サンプル内の観測値の総数です。
-Logは、基数10の常用対数です。
たとえば、142人の子供の身長のランダムサンプルを表す頻度ヒストグラムを作成するには、分布が持つ間隔またはクラスの数は次のとおりです。
k = 1 + 3.322 * log 10(N)
k = 1 + 3,322 *ログ(142)
k = 1 + 3.322 * 2.1523
k = 8.14≈8
したがって、分布は8つの間隔になります。
間隔の数は常に整数で表す必要があります。値が10進数の場合は、最も近い整数に近似する必要があります。
用途
スタージスの法則は、クラス(k)の数とこれらのそれぞれの長さ(振幅とも呼ばれる)の計算を通じて頻度分布を作成できるため、主に統計に適用されます。
振幅は、クラスの上限と下限の差をクラスの数で割ったものであり、次のように表されます。
頻度分布の作成を可能にする多くの経験則があります。ただし、Sturgesのルールは、クラスの数を概算するため、一般的に使用されます。クラスの数は、通常5〜15の範囲です。
したがって、サンプルまたは母集団を適切に表す値を考慮します。つまり、近似は極端なグループ化を表すものではなく、サンプルを要約できないほど多くのクラスに対しても機能しません。
例
頻度のヒストグラムは、与えられたデータに従って作成する必要があります。これは、地元のジムで運動する男性の調査で得られた年齢に対応しています。
間隔を決定するには、サンプルのサイズまたは観測数を知っている必要があります。この場合、30です。
次に、スタージスの規則が適用されます。
k = 1 + 3.322 * log 10(N)
k = 1 + 3,322 *ログ(30)
k = 1 + 3.322 * 1.4771
k = 5.90≈6間隔。
間隔の数から、これらの振幅を計算できます。つまり、頻度ヒストグラムで表される各バーの幅:
下限はデータの最小値と見なされ、上限は最大値と見なされます。上限と下限の差は、変数(R)の範囲または範囲と呼ばれます。
表から、上限は46、下限は13であることがわかります。したがって、各クラスの振幅は次のようになります。
間隔は、上限と下限で構成されます。これらの間隔を決定するには、下限から数えて、ルール(6)によって決定された振幅を次のように追加します。
次に、絶対頻度を計算して、各間隔に対応する男性の数を決定します。この場合は次のとおりです。
-間隔1:13-18 = 9
-間隔2:19-24 = 9
-間隔3:25-30 = 5
-間隔4:31-36 = 2
-間隔5:37-42 = 2
-間隔6:43-48 = 3
各クラスの絶対頻度を追加する場合、これはサンプルの総数と等しくなければなりません。この場合は30です。
続いて、各間隔の相対頻度が計算され、その絶対頻度が観測の総数で除算されます。
-間隔1:fi = 9÷30 = 0.30
-間隔2:fi = 9÷30 = 0.30
-間隔3:fi = 5÷30 = 0.1666
-間隔4:fi = 2÷30 = 0.0666
-間隔5:fi = 2÷30 = 0.0666
-間隔4:fi = 3÷30 = 0.10
次に、次の図に示すように、データを反映した表を作成し、取得した間隔に関連する相対頻度からの図を作成できます。
このように、Sturgesルールでは、テーブルとグラフの精巧化を通じてデータサンプルを要約するために、サンプルを分割できるクラスまたは間隔の数を決定できます。
参考文献
- AlfonsoUrquía、MV(2013)。離散イベントのモデリングとシミュレーション。UNED、。
- Altman Naomi、MK(2015)。「単純な線形回帰」。自然の方法。
- Antúnez、RJ(2014)。教育における統計。デジタルユニット。
- Fox、J.(1997.)。応用回帰分析、線形モデル、および関連する方法。SAGE出版物。
- ウンベルトリナスソラノ、CR(2005)。記述統計と確率分布。ノーザン大学。
- パンテレバ、OV(2005)。確率と統計の基礎。
- O. Kuehl、MO(2001)。実験計画法:研究計画と分析の統計的原則。Thomson Editors。