カテゴリ変数は、いくつかのオブジェクト、個人、エンティティ、状態またはプロシージャに非数値または定性的な特徴または特性を割り当てるために統計で使用されるものです。それぞれのニーズに応じて、すべての種類のカテゴリ変数を定義できます。
カテゴリー変数の例は、色、性別、血液型、婚姻状況、資料の種類、支払い方法、または銀行口座の種類であり、日常的によく使用されます。
図1:色はカテゴリ変数です。ソース:pixabay
上記は変数ですが、可能な値は定性的です。つまり、品質または特性であり、数値測定ではありません。たとえば、変数sexの可能な値は、男性、hエンブラです。
この変数がコンピュータープログラムに格納されている場合、テキスト変数として宣言できます。受け入れられる値は、既に名前が付けられている値(男性、女性)のみです。
ただし、男性に1が割り当てられ、女性に値2が割り当てられている場合、同じ変数sexを宣言して整数として保存できます。このため、カテゴリ変数は列挙型と呼ばれることがあります。
カテゴリー変数の主な特徴は、連続変数や離散変数などの他の変数とは異なり、それらを使って算術を行うことができないことです。ただし、後で説明するように、統計はそれらを使用して実行できます。
例
以下のカテゴリー変数の例とそれらの可能な値に注意してください。
-Group_Sanguíneo、値の範囲:A、B、AB、O
-Civil_Status、カテゴリ値:独身(A)、既婚(B)、未亡人(C)、離婚(D)。
-Tipo_de_Material、カテゴリまたは値:1 =木材、2 =金属、3 =プラスチック
-Form_of_Payment、証券またはカテゴリ:(1)現金、(2)借方、(3)送金、(4)クレジット
前の例では、番号が完全に任意の方法で各カテゴリに関連付けられています。
その場合、この任意の数値の関連付けにより、離散的な量的変数に等しくなると考えられますが、これらの数値では算術演算を実行できないため、そうではありません。
アイデアを説明するために、変数Form_of_Paymentでは、合計操作は意味がありません。
(1)現金+(2)デビットが等しくなることはありません(3)送金
カテゴリー変数の分類
ランキングは、暗黙的な階層があるかどうか、または可能な結果の数が2つ以上かどうかに基づいています。
考えられる結果が1つだけのカテゴリー変数は変数ではなく、カテゴリー定数です。
公称カテゴリ
数字で表現できない、または順序付けできない場合。たとえば、変数Type_of_Materialには公称値(Wood、Metal、Plastic)があり、各応答またはカテゴリに任意の番号が割り当てられている場合でも、階層や順序はありません。
序数カテゴリカル
変数:Academic_performance
公称値:高、中、低
この変数の値は数値ではありませんが、暗黙的な順序または階層があります。
バイナリカテゴリ
これらは、たとえば次の2つの可能な答えを持つ名義変数です。
-変数:応答
-公称値:True、False
Response変数には暗黙的な階層がなく、2つの結果しか得られないことに注意してください。したがって、これはバイナリのカテゴリ変数です。
一部の作成者は、このタイプをバイナリ変数と呼び、4つ以上の可能なカテゴリを持つ変数に制限されているカテゴリ変数に属するとは考えていません。
カテゴリー変数を使用した統計
統計は、数値変数や量的変数ではないにもかかわらず、カテゴリー変数を使用して実行できます。たとえば、カテゴリ変数の傾向または最も可能性の高い値を知るには、モードが使用されます。
モードは、この場合、カテゴリー変数の最も繰り返される結果または値です。カテゴリー変数の場合、平均または中央値を計算することはできません。
カテゴリー変数では算術を実行できないため、平均を計算できません。どちらも中央値ではありません。量的変数またはカテゴリ変数には順序や階層がないため、中央値を決定することはできません。
カテゴリー変数のグラフィック表現
特定のカテゴリ変数を指定すると、その変数の結果が繰り返される頻度または回数を見つけることができます。これを結果ごとに行うと、各カテゴリまたは結果に対する頻度のグラフを作成できます。
以下は、カテゴリー変数をグラフィカルに表現する方法の例です。
解決された演習
演習1
会社には170人の従業員のデータの記録があります。これらのレコードに含まれる変数の1つはEstado_Civilです。この変数には、4つのカテゴリまたは可能な値があります。
シングル(A)、既婚(B)、未亡人(C)、離婚(D)。
これは非数値変数ですが、次の図に示すように、特定のカテゴリに含まれる合計レコード数を把握し、棒グラフの形で表すことができます。
図2.カテゴリー変数の結果の表現。出典:自作
例2
靴屋はその販売を追跡します。それらの記録を管理する変数の中には、各モデルの靴の色があります。変数:
Color_Shoe_Model_AW3
これはカテゴリー型であり、5つのカテゴリーまたは可能な値があります。この変数の各カテゴリについて、販売数が合計され、それらの割合が確立されます。結果を次の図のグラフに示します。
図3.カテゴリー変数Color _Shoe。この変数では、モードは白です。出典:自作。
流行しているAW3の靴モデルといえば、一番売れているのは白で、次が黒。
また、70%の確率で、このモデルで次に販売される靴は、白または黒になります。
この情報は、新規注文の際に店舗にとって役立つ場合があります。また、在庫が多すぎるため、最も売れていない色に割引を適用することもできます。
例3
特定の献血者集団について、特定の血液型に属する人々の数を表す必要があります。結果を視覚化するグラフィック方法は、表の下部にあるピクトグラムを使用することです。
最初の列はgroup_sanguíneo変数とその可能な結果またはカテゴリを表します。2番目の列は、各カテゴリの人数をアイコンまたは絵で表しています。この例では、アイコンとして赤い液滴が使用され、それぞれが10人を表しています。
図4.ピクトグラム。出典:自作
参考文献
- カーンアカデミー。カテゴリカルデータの分析。回収元:khanacademy.org
- 宇宙の数式。定性変数。回復:univesoformulas.com
- Minitab。これは、カテゴリー変数、離散変数、連続変数です。から回復:support.minitab.com
- Excelチュートリアル。変数の特徴付け。回復:help.xlslat.com。
- ウィキペディア。統計変数。wikipedia.comから復元
- ウィキペディア。カテゴリー変数。wikipedia.comから復元
- ウィキペディア。カテゴリー変数。 wikipedia.comから復元