超幾何分布は、二つの可能な結果を有する無作為化実験で確率を計算するのに適した別個の統計的関数です。それを適用するために必要な条件は、それらが小集団であることであり、その場合、引き出しは置き換えられず、確率は一定ではありません。
したがって、特定の特性の結果(真または偽)を知るために母集団の要素を選択すると、同じ要素を再度選択することはできません。
図1.このようなボルト母集団では、確かに欠陥のある標本があります。出典:Pixabay。
確かに、前の要素に否定的な結果があった場合、選択された次の要素は真の結果を得る可能性が高くなります。つまり、サンプルから要素が抽出されると、確率が変化します。
超幾何分布の主な用途は、人口が少ないプロセスでの品質管理と偶然のゲームでの確率の計算です。
超幾何分布を定義する数学関数については、次の3つのパラメーターで構成されます。
-人口要素の数(N)
-サンプルサイズ(m)
-調査された特性(n)の結果が好ましい(または好ましくない)母集団全体のイベント数。
数式と方程式
超幾何分布の式は、特定の特性のx個の有利なケースが発生する確率Pを与えます。組み合わせ数に基づいて数学的にそれを書く方法は次のとおりです:
前の式では、N、n、およびmはパラメーターであり、xは変数自体です。
-総人口はNです。
-母集団全体に対する特定のバイナリ特性の肯定的な結果の数はnです。
-サンプル内の要素の数量はmです。
この場合、Xはxの値をとる確率変数であり、P(x)は調査された特性のx個の好ましいケースの発生確率を示します。
重要な統計変数
超幾何分布の他の統計変数は次のとおりです。
-平均μ= m * n / N
-分散σ^ 2 = m *(n / N)*(1-n / N)*(Nm)/(N-1)
-分散の平方根である標準偏差σ。
モデルとプロパティ
超幾何分布のモデルに到達するには、サイズmのサンプルでx個の有利なケースを取得する確率から始めます。このサンプルには、調査中のプロパティに準拠する要素と準拠しない要素が含まれています。
nはN個の要素の総母集団における好ましいケースの数を表すことを思い出してください。次に、確率は次のように計算されます。
上記を組み合わせ数の形で表すと、次の確率分布モデルに到達します。
超幾何分布の主な特性
それらは次のとおりです。
-母集団が大きい場合でも、サンプルは常に小さい必要があります。
-サンプルの要素が1つずつ抽出され、母集団に戻されません。
-調査対象のプロパティはバイナリです。つまり、1または0、trueまたはfalseの2つの値しか取ることができません。
各要素抽出ステップでは、前の結果に応じて確率が変化します。
二項分布を使用した近似
超幾何分布の別の特性は、母集団Nが大きく、サンプルmの少なくとも10倍である限り、Biで表される二項分布で近似できることです。この場合、次のようになります。
サンプルのx = 3本のネジに欠陥がある確率は、P(500、5、60、3)= 0.0129です。
その部分については、サンプルの60個のうちx = 4個のネジが不良である確率は、P(500、5、60; 4)= 0.0008です。
最後に、そのサンプルのx = 5本のネジに欠陥がある確率は、P(500、5、60; 5)= 0です。
ただし、そのサンプルに不良ネジが3つ以上ある確率を知りたい場合は、次のように追加して累積確率を取得する必要があります。
この例を図2に示します。GeoGebraは、学校、研究所、大学で広く使用されているフリーソフトウェアです。
図2.超幾何分布の例。GeoGebraと共にF. Zapataが作成。
例2
スペインのデッキデッキには40枚のカードがあり、そのうち10枚には金があり、残りの30枚にはありません。そのデッキからランダムに7枚のカードが引き出され、それらはデッキに組み込まれないと仮定します。
Xが7枚のカードに存在するゴールドの数である場合、7枚のカードにxゴールドが含まれる確率は、超幾何分布P(40,10,7; x)によって与えられます。
これを次のように見てみましょう。7枚のドローで4つの金がある確率を計算するには、次の値を持つ超幾何分布の式を使用します。
その結果は、4.57%の確率です。
ただし、4枚以上のカードを取得する確率を知りたい場合は、以下を追加する必要があります。
解決された演習
次の一連の演習は、この記事で説明した概念を説明し、理解することを目的としています。ソリューションを検討する前に、読者が自分で解決しようとすることが重要です。
演習1
コンドーム工場では、特定の機械で製造された1000個のコンドームのうち5個に欠陥があることを発見しました。品質管理のために、100個のコンドームがランダムに取得され、少なくとも1つ以上の欠陥がある場合、ロットは拒否されます。回答:
a)100の多くが破棄される可能性は何ですか?
b)この品質管理基準は効率的ですか?
解決
この場合、非常に大きな組み合わせ数が表示されます。適切なソフトウェアパッケージがない限り、計算は困難です。
しかし、それは大きな母集団であり、標本は総母集団の10分の1であるため、二項分布による超幾何分布の近似を使用できます。
上記の式では、C(100、x)は組み合わせ数です。次に、複数の欠陥がある確率は次のように計算されます。
超幾何分布を適用して得られる値と比較すると、これは優れた近似値です:0.4102
40%の確率で、100種類の予防薬のバッチを廃棄する必要があると言えますが、これはあまり効率的ではありません。
ただし、品質管理プロセスの要求が少し低くなり、不良品が2つ以上ある場合にのみ100のロットを廃棄すると、ロットを廃棄する確率は8%に低下します。
演習2
プラスチック製のブロックマシンは、10個ごとに1つが変形して出てくるように機能します。5個のサンプルで、1個だけに欠陥がある可能性はどのくらいありますか?
解決
人口:N = 10
Nごとの不良品の数n:n = 1
サンプルサイズ:m = 5
したがって、サンプル5でブロックが変形する確率は50%です。
演習3
若い高校卒業生の集まりには、7人の女性と6人の紳士がいます。女の子のうち、4人は人文科学を学び、3人は科学を学んでいます。少年グループでは、1人が人文科学、5人が科学を研究しています。以下を計算します。
a)3人の女の子を無作為に選ぶ:彼らがすべて人文科学を研究する可能性はどのくらいありますか?
b)友人の会議に3人の出席者がランダムに選択された場合:性別に関係なく、そのうち3人が科学を学んでいるか、人文科学が3人とも学んでいる可能性は何ですか?
c)次に2人の友人をランダムに選択し、xをランダム変数「人文科学を学ぶ人の数」と呼びます。選択した2つの間で、xの平均値または期待値と分散σ^ 2を決定します。
への解決策
現在使用する値は次のとおりです。
-人口:N = 14
-手紙を研究する量は次のとおりです:n = 6そして
-サンプルのサイズ:m = 3。
-人文科学を学んでいる友人の数:x
これによると、x = 3は3つすべてが人文科学を研究することを意味しますが、x = 0は人文科学を研究しないことを意味します。3つすべてが同じものを学習する確率は、合計で与えられます。
P(14、6、3、x = 0)+ P(14、6、3、x = 3)= 0.0560 + 0.1539 = 0.2099
次に、ランダムに選択された3人の会議出席者が同じことを勉強する確率は21%です。
ソリューションc
ここには次の値があります。
N = 14人の友人の総人口、n = 6人文科学を研究する人口の総数、サンプルサイズはm = 2。
希望は:
E(x)= m *(n / N)= 2 *(6/14)= 0.8572
そして分散:
σ(x)^ 2 = m *(n / N)*(1-n / N)*(Nm)/(N-1)= 2 *(6/14)*(1-6 / 14)*( 14-2)/(14-1)=
= 2 *(6/14)*(1-6 / 14)*(14-2)/(14-1)= 2 *(3/7)*(1-3 / 7)*(12)/( 13)= 0.4521
参考文献
- 離散確率分布。リカバリー元:biplot.usal.es
- 統計と確率。超幾何分布。回収元:projectdescartes.org
- CDPYE-UGR。超幾何分布。から回復:ugr.es
- Geogebra。古典的な代数、確率計算。geogebra.orgから復元
- 簡単に試してください。超幾何分布の解決された問題。回収元:probafacil.com
- Minitab。超幾何分布。リカバリー元:support.minitab.com
- ビーゴ大学。主な離散分布。から回復:anapg.webs.uvigo.es
- Vitutor。統計学と組み合わせ論。リカバリー元:vitutor.net
- Weisstein、Eric W.超幾何分布。回収元:mathworld.wolfram.com
- ウィキペディア。超幾何分布。から回復:es.wikipedia.com