範囲、範囲または振幅、統計では、最大値及びサンプルまたは集団からのデータセットの最小値との差(減算)です。範囲が文字Rで表され、データがxで表される場合、範囲の式は次のようになります。
R = x max -x min
ここで、x maxはデータの最大値、x minは最小値です。
図1.過去2世紀のカディスの人口に対応するデータの範囲。出典:ウィキメディア・コモンズ。
この概念は、分散の簡単な測定として非常に役立ちます。これは、データの変動が見つかる間隔の延長または長さを示すため、データの変動をすばやく評価するためです。
たとえば、大学の工学部の1年生の男性25人のグループの身長を測定するとします。グループで最も高い生徒は1.93 mで、最短の1.67 mです。これらはサンプルデータの極値であるため、そのパスは次のとおりです。
R = 1.93-1.67 m = 0.26 mまたは26 cm。
このグループの生徒の身長は、この範囲に沿って分布しています。
長所と短所
範囲は、前に述べたように、データがどの程度広がっているかの尺度です。小さい範囲は、データが多少近く、スプレッドが低いことを示します。一方、範囲が大きいほど、データが分散していることを示します。
範囲を計算する利点は明白です。単純な違いなので、見つけるのは非常に簡単で高速です。
それはまた、それが機能するデータと同じ単位を持ち、その概念はどのオブザーバーにとっても非常に簡単に解釈できます。
工学部の学生の身長の例では、範囲が5 cmであれば、学生はすべてほぼ同じサイズであると言えます。しかし、26 cmの範囲では、サンプルにすべての中間の高さの生徒がいるとすぐに想定します。この仮定は常に正しいですか?
分散の尺度としての範囲の短所
注意深く見ると、工学部の学生25人のサンプルでは、そのうちの1人だけが1.93を測定し、残りの24人は高さが1.67 mに近い可能性があります。
それでも範囲は同じですが、反対は完全に可能です。大多数の高さは約1.90 mで、1つだけが1.67 mです。
どちらの場合でも、データの分布はかなり異なります。
分散の尺度としての範囲の欠点は、極端な値のみを使用し、他のすべてを無視するためです。ほとんどの情報が失われるため、サンプルデータがどのように配布されるかはわかりません。
別の重要な特性は、サンプルの範囲が決して減少しないことです。さらに情報を追加すると、つまり、より多くのデータを検討すると、範囲は増加するか、同じままになります。
いずれにしても、それは小さなサンプルで作業する場合にのみ有用であり、大きなサンプルの分散の測定としてそれを単独で使用することは推奨されません。
行う必要があるのは、四分位範囲、分散、標準偏差、および変動係数など、合計データによって提供される情報を考慮に入れる他の分散測定の計算でそれを補完することです。
四分位範囲、四分位数、および作業例
分散の尺度としての範囲の弱点は、データ分布の極端な値のみを使用し、他は省略していることです。
この不便を回避するために、四分位数が使用されます:位置メジャーとして知られている3つの値。
グループ化されていないデータを4つの部分に分散します(他に広く使用されている位置メジャーは十分位とパーセンタイルです)。これらはその特徴です:
-第1四分位Q 1は、それらのすべての25%がQ 1未満になるようなデータの値です。
-2番目の四分位Q 2は分布の中央値です。つまり、データの半分(50%)がこの値よりも小さいことを意味します。
-最後に、第3四分位Q 3は、データの75%がQ 3より小さいことを示しています。
次に、四分位範囲または四分位範囲は、データの3番目の四分位Q 3と最初の四分位Q 1の差として定義されます。
四分位範囲= R Q = Q 3 -Q 1
このようにして、範囲R Qの値は極端な値の影響をあまり受けません。このため、上記の非常に背の高い学生や非常に短い学生の分布など、歪んだ分布を処理する場合に使用することをお勧めします。
-四分位数の計算
それらを計算する方法はいくつかありますが、ここでは1つ提案しますが、いずれの場合も、それぞれの四分位が分布で占める順序番号「N o」を知っておく必要があります。
つまり、たとえばQ 1に対応する項が分布の2番目、3番目、または4番目などの場合です。
第1四分位
N または(Q 1)=(N + 1)/ 4
第2四分位または中央値
N または(Q 2)=(N + 1)/ 2
第3四分位
N または(Q 3)= 3(N + 1)/ 4
ここで、Nはデータの数です。
中央値は、分布の真ん中にある値です。データの数が奇数の場合、それを見つけることは問題ありませんが、偶数の場合は、2つの中心値が平均されて1になります。
注文番号が計算されると、次の3つのルールのいずれかに従います。
-小数がない場合、分布に示されているデータが検索され、これが求められる四分位数になります。
-注文番号が2つの中間である場合、整数部分で示されるデータは次のデータで平均化され、結果は対応する四分位数になります。
-その他の場合は、最も近い整数に丸められ、それが四分位の位置になります。
働いた例
0から20までのスケールで、16人の数学グループのグループが中間試験で次のマーク(ポイント)を獲得しました。
16、10、12、8、9、15、18、20、9、11、1、13、17、9、10、14
検索:
a)データの範囲または範囲。
b)四分位数Q 1およびQ 3の値
c)四分位範囲。
図2.この数学テストのスコアには、それほどばらつきがありますか?出典:Pixabay。
への解決策
ルートを見つけるために最初に行うことは、データを昇順または降順に並べることです。たとえば、次の順序で増加します。
1、8、9、9、9、10、10、11、12、13、14、15、16、17、18、20
最初に示した式を使用:R = x max -x min
R = 20-1ポイント= 19ポイント。
結果によると、これらの評価には大きなばらつきがあります。
ソリューションb
N = 16
N または(Q 1)=(N + 1)/ 4 =(16 + 1)/ 4 = 17/4 = 4.25
これは小数を含む数値で、整数部分は4です。次に分布に進み、4番目の場所を占めるデータを探し、その値を5番目の位置のデータと平均します。どちらも9なので、平均も9になります。
Q 1 = 9
次に、手順を繰り返してQ 3を見つけます。
N または(Q 3)= 3(N + 1)/ 4 = 3(16 +1)/ 4 = 12.75
ここでも小数ですが、中間ではないため、13に丸められます。求められた四分位数は、13番目の位置を占め、次のようになります。
Q 3 = 16
ソリューションc
R Q = Q 3 -Q 1 = 16-9 = 7ポイント。
これは、ご覧のとおり、セクションa)で計算されたデータの範囲よりもはるかに小さい値です。これは、最小スコアが1ポイントであり、残りの値からはるかに離れているためです。
参考文献
- Berenson、M。1985。経営と経済学の統計。Interamericana SA
- Canavos、G。1988。確率と統計:アプリケーションと方法。マグローヒル。
- Devore、J。2012。工学と科学の確率と統計。8日。版。Cengage。
- 四分位数の例。から回復:matematicas10.net。
- レビン、R。1988。管理者のための統計。2番目。版。プレンティスホール。
- ウォルポール、R。2007。工学および科学の確率と統計。ピアソン。