クラスマークも中点としても知られているが、そのカテゴリにあるすべての値を表すクラスの中心での値です。基本的に、クラスマークは、算術平均や標準偏差などの特定のパラメーターを計算するために使用されます。
したがって、クラスマークは任意の間隔の中間点です。この値は、すでにクラスにグループ化されている一連のデータの分散を見つけるのにも非常に役立ちます。これにより、これらの特定のデータが中心からどれだけ離れているかを理解できます。
頻度分布
クラスマークとは何かを理解するには、頻度分布の概念が必要です。一連のデータが与えられると、度数分布は、データをクラスと呼ばれるいくつかのカテゴリに分割するテーブルです。
この表は、各クラスに属する要素の数を示しています。後者は周波数として知られています。
このテーブルは、データから取得する情報の一部を犠牲にします。これは、各要素の個別の値を持つのではなく、そのクラスに属していることがわかっているだけだからです。
一方、データセットの理解が深まります。これにより、確立されたパターンを理解しやすくなり、データの操作が容易になります。
検討するクラスの数は?
頻度分布を実行するには、まず、取得するクラスの数を決定し、クラスの制限を選択する必要があります。
少数のクラスは調査対象のデータに関する情報を非表示にし、非常に多数のクラスは必ずしも有用ではない多くの詳細を生成する可能性があることを考慮して、使用するクラス数の選択は便利です。
取得するクラスの数を選択する際に考慮しなければならない要素はいくつかありますが、これらの2つの中で際立っています。2つ目は、分布の範囲がどのくらい大きいか(つまり、最大の観測値と最小の観測値の差)を知ることです。
クラスを定義した後、各クラスに存在するデータの数を数えます。この数はクラスの頻度と呼ばれ、fiで示されます。
前に述べたように、頻度分布は、各データまたは観測から個別に得られる情報を失います。このため、所属するクラス全体を表す値が求められます。この値はクラスマークです。
どうやって入手するの?
クラスマークは、クラスが表すコア値です。これは、間隔の制限を追加し、この値を2で割ることによって得られます。これを数学的に次のように表すことができます。
x i =(下限+上限)/ 2。
この式では、x iはi番目のクラスのマークを示します。
例
次のデータセットを前提として、代表的な頻度分布を与え、対応するクラスマークを取得します。
数値が最大のデータは391、最小のデータは221なので、範囲は391 -221 = 170です。
同じサイズの5つのクラスを選択します。クラスを選択する1つの方法は次のとおりです。
各データはクラス内にあり、これらは互いに素であり、同じ値を持つことに注意してください。クラスを選択するもう1つの方法は、データを連続変数の一部と見なすことです。これは、実際の値に到達する可能性があります。この場合、次の形式のクラスを検討できます。
205〜245、245〜285、285〜325、325〜365、365〜405
ただし、このようにデータをグループ化すると、境界が曖昧になることがあります。たとえば、245の場合、質問が発生します。それは、最初の2番目のクラスに属しているか、2番目のクラスに属しているかのいずれかです。
この混乱を避けるために、エンドポイント規約が作成されます。このようにして、最初のクラスは間隔(205,245]、2番目のクラス(245,285]などになります。
クラスが定義されると、頻度の計算に進み、次の表が得られます。
データの頻度分布を取得した後、各区間のクラスマークを見つけます。実際には、次のことを行う必要があります。
x 1 =(205+ 245)/ 2 = 225
x 2 =(245+ 285)/ 2 = 265
x 3 =(285+ 325)/ 2 = 305
x 4 =(325+ 365)/ 2 = 345
x 5 =(365+ 405)/ 2 = 385
これを次のグラフで表すことができます。
それは何のため?
前述のように、クラスマークは、異なるクラスに既にグループ化されているデータグループの算術平均と分散を見つけるために非常に機能的です。
算術平均は、サンプルサイズ間で得られた観測値の合計として定義できます。物理的な観点から見ると、その解釈はデータセットの平衡点のようなものです。
データセット全体を単一の数値で識別することは危険な場合があるため、この損益分岐点と実際のデータの違いも考慮する必要があります。これらの値は、算術平均からの偏差として知られており、これらを使用して、データの算術平均がどれだけ変化するかを決定しようとします。
この値を見つける最も一般的な方法は、算術平均からの偏差の二乗の平均である分散です。
クラスにグループ化された一連のデータの算術平均と分散を計算するには、それぞれ次の数式を使用します。
これらの式では、x iはi番目のクラスマーク、f iは対応する頻度、kはデータがグループ化されたクラスの数を表します。
例
前の例で与えられたデータを利用して、頻度分布表のデータをもう少し拡張することができます。次のものを取得します。
次に、式にデータを代入すると、算術平均が次のようになります。
その分散と標準偏差は次のとおりです。
このことから、元のデータの算術平均は306.6で、標準偏差は39.56であると結論付けることができます。
参考文献
- フェルナンデスF.サンティアゴ、コルドバL.アレハンドロ、コルデロS.ホセM.記述統計。Esic社説。
- ジョンソンリチャードA.ミラーとフロイントの確率とエンジニアのための政治家。ピアソン教育。
- Miller I&Freund J.エンジニアのための確率と政治家。反転。
- サラビアA.ホセマリア、パスクアルマルタ。企業基礎統計コース
- リナス・S・ウンベルト、ロハス・A・カルロス記述統計と確率分布、ノルテ大学