この記事では統計解析に必要な基本ルールの1つ、変数と尺度を説明します
変数…変な数のことでしょうか?
変…ではないですね…一緒に勉強していきましょう?
はい、変な数について勉強頑張ります!に勉強していきましょう?
……。
変数ってなに?変な数ではありません
変数とはなんでしょうか?もちろん変な数ではありません。まずは次の画像を見てください。
髪型がパンクなリア充と、おぼっちゃまな非リア充のデータを比較してみました。
性別、身長、体重、幸福度、自由なお金…色々なデータがありますね。例えば性別は男性や女性といったデータを取り得ます。身長、体重、自由なお金なんかは数値のデータ、幸福度は数値ではないですが、他にも「とても不幸」とか「どちらでもない」といった大小関係がありそうなデータですね。
このように、世の中のデータは実はぜんぶ変数なんです。
調査などを行うことで、様々なデータが得られます。そのデータは人によって値が変化する数ですね。このように、世の中のデータはぜんぶ変数として扱うことができます。
例えば今このページを見ているパソコンやスマホの価格や画面の明るさ、あなたのいる部屋の温度なんかもぜんぶ変数となります。
変数は大きく2種類!さらに尺度がある
変数はその性質によって分類されています。後々の話ですが、変数の分類によって統計解析での扱い方が異なるので、しっかり覚えていきましょう。
変数はまず大きく質的変数と量的変数の2種類に分かれます。そしてその中でさらに尺度によって分類されます。どちらかというとこの尺度の方が統計解析で重要になります。
質的変数は、数値ではないデータ変数です。単なる分類(カテゴリー)の場合を名義尺度、そこに順序がある場合を順序尺度と言います。
量的変数は、量を表す数値データの変数で、間隔尺度、比例尺度に分かれています。
それでは、統計解析に必要な尺度について、1つずつ見ていきましょう。
名義尺度について理解しよう
名義尺度は、名前の通り名前をつけて分類するだけの尺度です。そこに大小関係や順序は存在しません。
わかりやすい例として、性別や血液型があります。ただ分類しているだけですよね?O型が1番いいやつで、B型は嫌われているとか、そんな順位なんてありません!(科学的・客観的に見た場合)
また、「有無」も名義尺度になります。なんとなく病気がない方が良いように思いますが、これもあるかないかの分類をしているに過ぎないので、名義尺度になります。その他、アンケートで「煙草を吸いますか?ー(はい or いいえ)」といった喫煙の有無の変数も名義尺度になります。
順序尺度について理解しよう
順序尺度は、大小関係つまり順番だけわかる尺度です。
上の画像を見て下さい。「普通」→「おこ」→「激おこ」→「激おこぷんぷん丸」といったように怒りのレベルが上がっていくのがわかりますよね?
では、例えばおこを2倍するとどうなるでしょうか?
何になるかわかりませんよね?他にも例に出ているように、「おこ」と「おこ」を足したり、「おこ」と「激おこ」を掛け算したり、「激おこぷんぷん丸」を「普通」で割ってもよくわからないですよね?
ここ、大切なポイントです。
順序尺度は、それぞれの間隔が不明です。例えば「長さ」であれば1cmと2cmの間隔は1cm、2cmと10cmの間隔は8cmというように計算することができます。順序尺度はこれができません。「おこ」と「激おこ」の間隔がわからないので例にあるような計算ができないんですね。
つまり、順序尺度は「足す」「引く」「かける」「割る」といった四則演算ができません。勘のいい人は気づくかもしれないですね。そのため平均値とか計算できないんです。詳しくは基本統計量の記事で紹介しますね。
間隔尺度と比例尺度について理解しよう
さて、続いては間隔尺度と比例尺度についてです。ちょっと難しいので最初に覚えなければいけないことを書きます。
間隔尺度・比例尺度は数値データで、四則演算ができるデータです。
ちなみに、統計解析上、間隔尺度と比例尺度を厳密にわけなくても大きな支障はないので、他の記事では「間隔・比例尺度」としてひとまとめにして扱っています。
では、気になる人のために間隔尺度と比例尺度の違いも説明しておきます(気にならない人は飛ばしてOK)
上の画像の説明を見てもちょっとピンとこないですよね。この2つの尺度の大きな違いは0の意味です。
間隔尺度は0であっても存在しています。例えば温度が0度、西暦0年どちらも存在しています。一方、比例尺度は0の場合は存在しません。身長0cmや体重0kgは見えないし測れないですよね?
そのくらいの違いしかありません。もっともっと細かく知りたい人はGoogle大先生に質問してください。
確認問題にチャレンジ
変数の扱い方について理解しよう
ここからは少しおまけ的な要素です。
変数の入力の方法について
まずはExcelなどでデータを入力際の扱い方です。
上の画像の性別と気分を見てください。アンケートでデータを取得すると、左の表のように入力したくなりませんか?でもこの入力方法はあまりお勧めできません。
なぜなら最終的に統計解析はコンピューターに計算してもらいます。計算する以上、数値にしておかないとうまくいかないんですね。
一般的に性別は男性を0、女性を1と入力することが多いです。もちろん大小関係があるわけではありませんが、コンピューターが計算できるようにしてあげてください。
0と1で扱うデータのことを二値データと呼んだりします。「あるかないか」の名義尺度の二値データは0と1で入力します。例えば病気の有無や該当・非該当といったデータは0と1で入力するといいですね。どちらを1にするかは厳密なルールはありませんが、注目する方を1に統一すると管理がしやすくなります(例えば病気に注目するなら病気あり=1とする)
血液型のような3つ以上に分類される名義尺度は1…2…3…と数字を入力しましょう。
また順序尺度は大小関係が分かるので、小さいものから1…2…3…と数字を振るといいでしょう。この時、1から始めた方が管理がしやすくなります。
また、データベースの作成の記事でも詳しく説明しますね。
尺度の変換の方法について
続いては尺度の変換についてです。
統計解析は2つ(以上)のグループの比較を行うため、グループに分ける必要があります。性別のような名義尺度はそのままグループ分けに使えますが、BMIのような間隔・比例尺度はそのままではグループ分けに使えません。
そこで、変数から新たな変数を作成し、尺度を変換することでグループ分けに使えるようになります。
例えば、「BMI」という変数から「BMI-2分類」という二値データの変数を作ることができます。割り振る基準を22以上と未満とし、BMIが22以上の人は1、22未満の人は0とすることで間隔・比例尺度から名義尺度に変換することができます。
そうすれば、BMI22以上グループと22未満グループで、握力や有病率などを比較することができます。
同じ要領で、間隔・比例尺度から順序尺度に変換、順序尺度から名義尺度に変換することもできます。
ちょっと難しい内容でしたが、統計解析をしていくと良く使います。逆に理論ではよくわからなくても、実際にやってみると感覚的にできたりもするので、データに触れながら理解できるといいかなと思います。