正規分布またはガウス分布は、確率密度関数は、ベル形状を生じる2次および負の引数の指数関数によって記述された連続変数、確率分布です。
正規分布の名前は、この分布が、特定のグループまたは母集団に連続確率変数が含まれる状況の最も多くに当てはまるという事実に由来しています。
図1.正規分布N(x;μ、σ)とその確率密度f(s;μ、σ)。(独自の詳細)
正規分布が適用される例は、男性または女性の身長、身体の大きさの測定値の変動、または特定の製品の知的商や消費習慣などの測定可能な心理的または社会的特性の変動です。
一方、ガウス分布またはガウスベルと呼ばれるのは、1800年に天文学的な測定の統計誤差を説明するために使用したことが発見されたのは、このドイツの数学の天才であるためです。
ただし、この統計的分布は、1733年に遡るアブラハムドモワールなど、フランス出身の別の偉大な数学者によって以前に公開されたと述べられています。
式
パラメータμとσを持つ連続変数xの正規分布関数は、次のように表されます。
N(x;μ、σ)
そしてそれはこのように明示的に書かれています:
N(x;μ、σ)は∫= -∞ X F(S;μ、σ)DS
ここで、f(u;μ、σ)は確率密度関数です。
F(S;μ、σ)=(1 /(σ√(2π))、EXP( - S 2 /(2σ 2))
確率密度関数で指数関数を乗算する定数は、正規化定数と呼ばれ、次のように選択されています。
N(+∞、μ、σ)= 1
前の式は、確率変数xが-∞と+∞の間にある確率が1、つまり100%の確率であることを保証します。
パラメータμは連続確率変数xの算術平均であり、σはその同じ変数の分散の標準偏差または平方根です。μ= 0およびσ= 1の場合、標準正規分布または標準正規分布になります。
N(x;μ= 0、σ= 1)
正規分布の特徴
1-確率統計変数が確率密度f(s;μ、σ)の正規分布に従う場合、ほとんどのデータは平均値μの周りにグループ化され、その周りに散在するような方法で分散されますデータのはμ-σとμ+σの間にあります。
2-標準偏差σは常に正です。
3-密度関数fの形状はベルの形状に似ています。そのため、この関数はしばしばガウスベルまたはガウス関数と呼ばれます。
4-ガウス分布では、平均、中央値、モードが一致します。
5-確率密度関数の変曲点は、正確にμ-σおよびμ+σにあります。
6-関数fは、その平均値μを通過する軸について対称であり、x⟶+∞およびx⟶-∞に対して漸近的にゼロです。
7-σの値が高いほど、平均値周辺のデータの分散、ノイズ、距離が大きくなります。言い換えれば、σが高いほど、ベルの形は開いたものになります。一方、σsmallは、サイコロが平均に近く、ベルの形状がより閉じているか、尖っていることを示します。
8-分布関数N(x;μ、σ)は、確率変数がx以下である確率を示します。たとえば、図1(上記)では、変数xが1.5以下である確率Pは84%であり、確率密度関数f(x;μ、σ)の下の面積に対応します-∞からx。
信頼区間
9-データが正規分布に従う場合、これらの68.26%はμ-σとμ+σの間にあります。
10-正規分布に従うデータの95.44%は、μ-2σとμ+2σの間です。
11-正規分布に従うデータの99.74%は、μ-3σとμ+3σの間です。
12-確率変数xが分布N(x;μ、σ)に従う場合、変数
z =(x-μ)/σは標準正規分布N(z; 0.1)に従います。
変数xをzに変更することは、標準化またはタイピングと呼ばれ、非標準正規分布に従うデータに標準分布のテーブルを適用するときに非常に役立ちます。
正規分布のアプリケーション
正規分布を適用するには、確率密度の積分を計算する必要があります。これは、分析の観点からは容易ではなく、数値計算を可能にするコンピュータープログラムがあるとは限りません。この目的のために、正規化または標準化された値のテーブルが使用されます。これは、μ= 0およびσ= 1の場合の正規分布にすぎません。
標準化された正規分布表(パート1/2)
標準化された正規分布表(パート2/2)
これらの表には負の値は含まれていないことに注意してください。ただし、ガウス確率密度関数の対称特性を使用すると、対応する値を取得できます。以下に示す解決済みの演習では、これらのケースでのテーブルの使用を示します。
例
平均10と標準偏差2の正規分布に従うランダムデータxのセットがあるとします。次の確率を見つけるように求められます。
a)確率変数xが8以下です。
b)10以下である。
c)変数xが12未満であること。
d)x値が8〜12の確率。
解決:
a)最初の質問に答えるには、単に計算する必要があります:
N(x;μ、σ)
x = 8、μ= 10、σ= 2の場合。基本関数に解析解がない積分であることがわかりますが、解は誤差関数erf(x)の関数として表されます。
一方、積分を数値形式で解く可能性があります。これは、多くの計算機、スプレッドシート、GeoGebraなどのコンピュータプログラムが行うことです。次の図は、最初のケースに対応する数値解を示しています。
図2.確率密度f(x;μ、σ)。網掛け部分はP(x≤8)を表します。(独自の詳細)
答えは、xが8未満である確率は次のとおりです。
P(x≤8)= N(x = 8;μ= 10、σ= 2)= 0.1587
b)この場合、確率変数xが平均(この場合は10の価値)を下回る確率を見つけようとします。データの半分が下であることを知っているので、答えは計算を必要としません。平均と平均の上の半分。したがって、答えは次のとおりです。
P(x≤10)= N(x = 10;μ= 10、σ= 2)= 0.5
c)この質問に答えるには、N(x = 12;μ= 10、σ= 2)を計算する必要があります。これは、統計関数を持つ計算機を使用するか、GeoGebraなどのソフトウェアを使用して実行できます。
図3.確率密度f(x;μ、σ)。網掛け部分はP(x≤12)を表します。(独自の詳細)
パートcに対する答えは図3にあり、次のとおりです。
P(x≤12)= N(x = 12;μ= 10、σ= 2)= 0.8413。
d)確率変数xが8から12の間である確率を見つけるには、次のように部分aとcの結果を使用できます。
P(8≤x≤12)= P(x≤12)-P(x≤8)= 0.8413-0.1587 = 0.6826 = 68.26%
運動が解決されました
会社の株式の平均価格は25ドルで、標準偏差は4ドルです。次の確率を決定します。
a)アクションのコストは20ドル未満です。
b)30ドルを超えるコストがかかる。
c)価格は20ドルから30ドルです。
標準正規分布表を使用して答えを見つけます。
解決:
テーブルを利用するには、正規化または型付きのz変数に渡す必要があります。
正規化変数の$ 20は、z =($ 20-$ 25)/ $ 4 = -5/4 = -1.25に等しく、
正規化変数の$ 30は、z =($ 30-$ 25)/ $ 4 = +5/4 = +1.25です。
a)$ 20は、正規化された変数では-1.25に等しいですが、テーブルには負の値がないため、0.8944の値を生成する値+1.25を配置します。
この値から0.5を差し引くと、結果は0から1.25までの領域になります。これは、(対称的に)-1.25から0までの領域と同じです。減算の結果は0.8944です- 0.5 = 0.3944は、-1.25と0の間の領域です。
しかし、-∞から-1.25までの領域が重要であり、0.5-0.3944 = 0.1056になります。したがって、株価が20ドルを下回る確率は10.56%であると結論付けられます。
b)型付き変数zの$ 30は1.25です。この値の場合、テーブルには0.8944という数値が表示されます。これは、-∞から+1.25までの領域に対応しています。+1.25と+∞の間の領域は、(1-0.8944)= 0.1056です。つまり、1株に30ドル以上かかる可能性は10.56%です。
c)アクションのコストが20ドルから30ドルである確率は、次のように計算されます。
100%-10.56%-10.56%= 78.88%
参考文献
- 統計と確率。正規分布。回収元:projectdescartes.org
- Geogebra。古典的な代数、確率計算。geogebra.orgから復元
- MathWorks。ガウス分布。から回復:es.mathworks.com
- メンデンホール、W。1981。経営と経済学の統計。3番目。版。Grupo EditorialIberoamérica。
- スタット・トレック。自分に統計を教える。ポアソン分布。から回復:stattrek.com、
- Triola、M。2012。初等統計。11日。Ed。Pearson Education。
- ビーゴ大学。主な継続的配布。から回復:anapg.webs.uvigo.es
- ウィキペディア。正規分布。回復元:es.wikipedia.org