ポアソン分布は離散確率分布であり、大きなサンプルサイズ内や特定の間隔、その確率が小さく、発生するイベント中確率を知ることができる、それを通して。
多くの場合、次の条件が満たされている限り、ポアソン分布を二項分布の代わりに使用できます:サンプル数が多く、確率が小さい。
図1.さまざまなパラメーターのポアソン分布のグラフ。出典:ウィキメディア・コモンズ。
Siméon-DenisPoisson(1781-1840)は、彼の名前が付いたこのディストリビューションを作成しました。これは、予測できないイベントに関して非常に役立ちます。ポアソンは1837年に彼の結果を発表しました。これは、誤った刑事刑の発生の可能性に関する調査です。
その後、他の研究者たちは他の領域の分布を調整しました。たとえば、一定の空間で見つかる星の数や、兵士が馬の蹴りで死亡する確率などです。
式と方程式
ポアソン分布の数学的形式は次のとおりです。
-μ(λとも表記される)は、分布の平均またはパラメーターです
-オイラー数:e = 2.71828
-y = kを得る確率はP
-kは成功数0、1、2、3 …
-nはテストまたはイベントの数(サンプルサイズ)
離散確率変数は、その名前が示すように、偶然に依存し、離散値のみを取ります:0、1、2、3、4…、k。
分布の平均は、次の式で与えられます。
データの広がりを測定する分散σは、もう1つの重要なパラメーターです。ポアソン分布の場合:
σ=μ
ポアソンは、n→∞、およびp→0の場合、平均μ(期待値とも呼ばれる)が一定になる傾向があると判断しました。
-考慮されるイベントまたはイベントは互いに独立しており、ランダムに発生します。
-特定の期間中に発生する特定のイベントの確率Pは非常に小さい:P→0。
-時間間隔内に複数のイベントが発生する確率は0です。
-平均値は、μ= np(nはサンプルサイズ)で与えられる定数に近似します。
-分散σはμに等しいため、より大きな値を採用するため、ばらつきも大きくなります。
-イベントは、使用される時間間隔で均等に分散される必要があります。
-イベントyの可能な値のセットは、0、1、2、3、4…です。
-ポアソン分布に従うi変数の合計も別のポアソン変数です。その平均値は、これらの変数の平均値の合計です。
二項分布との違い
ポアソン分布は、次の重要な点で二項分布とは異なります。
-二項分布はサンプルサイズnと確率Pの両方の影響を受けますが、ポアソン分布は平均μの影響のみを受けます。
-二項分布では、確率変数yの可能な値は0、1、2、…、Nですが、ポアソン分布では、これらの値に上限はありません。
例
ポアソンは当初、彼の有名な分布を訴訟に適用しましたが、産業レベルでは、彼の初期の用途の1つはビールの醸造でした。このプロセスでは、酵母培養物が発酵に使用されます。
酵母は生きている細胞で構成されており、その数は時間とともに変動します。ビールの製造では、必要な量を追加する必要があります。したがって、単位体積あたりの細胞数を知る必要があります。
第二次世界大戦中、ポワソン分布は、ドイツ人が実際にカレーからロンドンを狙っていたのか、それともランダムに発砲したのかを調べるために使用されました。これは、同盟国がナチスが利用できる技術がどれほど優れているかを判断するために重要でした。
実用的なアプリケーション
ポアソン分布のアプリケーションは、常に時間のカウントまたは空間のカウントを参照します。また、発生確率が低いため「レアイベントの法則」としても知られています。
これらのカテゴリのいずれかに分類されるイベントのリストを次に示します。
-放射性崩壊における粒子の登録。これは、酵母細胞の成長と同様に、指数関数です。
-特定のWebサイトへのアクセス数。
-支払いまたは出席する列への人々の到着(キュー理論)。
-所定の時間間隔中に、道路上の特定のポイントを通過する車の数。
図2.ポイントを通過する自動車の数は、ポアソン分布にほぼ従います。出典:Pixabay。
-放射線被ばくを受けた後、特定のDNA鎖に変異が生じた。
・直径1m以上の隕石が1年で落下。
-布地の平方メートルあたりの欠陥。
-1立方センチメートルの血液細胞の量。
-電話交換への1分あたりの通話数。
-チョコレートチップは1 kgのケーキバッターに含まれています。
-1ヘクタールの森林における特定の寄生虫に感染した樹木の数。
これらのランダム変数は、一定期間内にイベントが発生した回数(電話交換機への1分あたりの通話数)、または特定の空間領域(1平方メートルあたりのファブリック欠陥)を表すことに注意してください。
これらのイベントは、すでに確立されているように、最後に発生してから経過した時間とは無関係です。
二項分布をポアソン分布で近似する
ポアソン分布は、次の条件が満たされている限り、二項分布の良い近似です。
-サンプルのサイズが大きい:n≥100
-確率pが小さい:p≤0.1
-μは次の順序です:np≤10
このような場合、二項分布を適用するのは難しいため、ポアソン分布は優れたツールです。
解決された演習
演習1
地震学的研究により、過去100年の間に世界中で93件の大地震が発生し、リヒタースケール-対数-で6.0以上であることが判明しました。この場合、ポアソン分布が適切なモデルであると仮定します。検索:
a)年間の大地震の平均発生。
b)P(y)がランダムに選択された年に発生する地震の確率である場合、次の確率を求めます。
それはP(2)よりかなり小さいです。
結果は以下のとおりです。
P(0)= 0.395、P(1)= 0.367、P(2)= 0.171、P(3)= 0.0529、P(4)= 0.0123、P(5)= 0.00229、P(6)= 0.000355、P (7)= 0.0000471。
たとえば、ある年に大地震が発生しない確率は39.5%と言えます。または、その年に発生した3つの大地震の5.29%があること。
ソリューションc)
c)頻度が分析され、n = 100年が掛けられます。
39.5; 36.7; 17.1; 5.29; 1.23; 0.229; 0.0355および0.00471。
例えば:
・39.5という頻度は、100年のうち39。5年に大地震が発生していないことを示しており、大地震のない47年という実績とかなり近いと言えます。
別のポアソン結果を実際の結果と比較してみましょう。
-36.7の値は、37年間に1つの大地震が発生したことを意味します。実際の結果では、31年間に1回の大地震があり、モデルとよく一致しています。
-大地震が2回発生すると17.1年が予想され、近い値である13年に実際に大地震が2回発生したことがわかっています。
したがって、このケースではポアソンモデルを使用できます。
演習2
ある会社は、100稼働時間に達する前に故障するコンポーネントの数がポアソン分布に従うと推定しています。その時間の平均失敗数が8の場合、次の確率を見つけます。
a)コンポーネントが25時間で故障する。
b)50時間で2つ未満のコンポーネントの故障。
c)少なくとも3つのコンポーネントが125時間で故障します。
への解決策)
a)100時間の障害の平均は8であることがわかっているため、25時間では4分の1の障害、つまり2つの障害が予想されます。これがμパラメータになります。
1つのコンポーネントが故障する確率が要求され、確率変数は「25時間前に故障するコンポーネント」であり、その値はy = 1です。確率関数に代入することにより:
ただし、問題は、50時間で2つ未満のコンポーネントが故障する確率であり、正確に2つのコンポーネントが50時間で故障する確率ではないため、次の確率を追加する必要があります。
-失敗しない
-失敗のみ1
この場合の分布のパラメーターμは次のとおりです。
μ= 8 + 2 = 125時間で10回の失敗。
P(3つ以上のコンポーネントが故障)= 1- P(0)-P(1)-P(2)=
参考文献
- MathWorks。ポアソン分布。から回復:es.mathworks.com
- メンデンホール、W。1981。経営と経済学の統計。3番目。版。Grupo EditorialIberoamérica。
- スタット・トレック。自分に統計を教える。ポアソン分布。から回復:stattrek.com、
- Triola、M。2012。初等統計。11日。Ed。Pearson Education。
- ウィキペディア。ポアソン分布。から回復:en.wikipedia.org