研究で得たデータってどうやって管理すればいいですか?
色々な方法がありますが、ここではExcelを使ったデータまとめについて紹介します
研究データはきれいに見やすくまとめよう
研究をするうえで様々な方法で情報を取得します。アンケート調査で得た紙の情報や、身体測定で測定した情報、その他インタビューによる音声や最近ではインターネット調査でも情報を得ることができます。
研究で取得した情報は、データ化する必要があります。そのデータをまとめたものをデータセット(データベース)と呼び、表の形式で保管されます。
データセットの作成は研究を行う上で非常に重要なステップです。データセット作成にしっかりと時間をかけて丁寧に作ると、その後の統計解析を効率的に行うことができます。
また、複数人でデータを共有することもよくあります。わかりやすく整ったデータセットは共有することもとても簡単です。また、数年後に見直した時もすぐに使えます(自分で作ったものでも適当につくるとわからなくなります)
この記事では、データセットの作り方や、その際の注意点やコツを紹介します。
きれいで使いやすいデータセットをつくろう
実際にExcelを使ってデータを打ち込みながらデータセット作成について学んでいきましょう。以下のファイルをダウンロードしてください。
きれいで使いやすいデータセット作成のために、上の5つについて紹介していきます。ルールを無視したデータセットは作業効率の低下や統計ソフトでの計算ミスやエラーの原因となるので、しっかり勉強しておきましょう。
配布資料の確認(data-set-practice.pdf)-PDFファイル
これは4人の男女に紙面によるアンケート調査を実施した結果です。生データってやつです。これをデータセットにまとめながら勉強していきます。必要に応じて印刷すると作業がはかどるかと思います。
また、アンケート調査の各質問を見て、それぞれの質問が何尺度に該当するか判別できるようになっているといいかと思います。ちなみに年齢が間隔・比例尺度、幸福度が順序尺度、それ以外は名義尺度です。最後の自由記述は質的データと呼ばれて、統計解析にはふつうは使いません。
配布資料の確認(data-set-practice.xlsx)-Excelファイル
Excelファイルのほうは、4つのシートがあり、最初の2シートは白紙なのでここにデータセットを作っていきましょう。残りの2シートは見本になっているので、悩んだときは参考にしてみましょう。
データセットの名前のルール
データセットは1つ作ればいいというわけではなく、研究に合わせてどんどん作っていくことになります。最初にすべてのデータをそのまま入力した元データのセットを作り、欠損値を除去したり、男性のみにしたりするたびに元データから新しくデータセットを作成していきます。
たくさんデータセットを作ると、ぐちゃぐちゃになってしまうので、一定のルールを決めておくと管理しやすくなります。どんなルールでもいいんですが、とりあえず上の画像のように先ほどダウンロードしたエクセルファイルの名前を「リア充調査_元データ_今日の日付」というように変更してみましょう。
変数の名前のルール
次は変数の名前のルールです。このルールを守らないと計算エラーが起きる場合があるので従うようにしてください。データセット名もこのルールに従っておいたほうが無難です。
特に最後の「できるだけ内容がわかる名前にする」はポイントです。例えば「あなたの幸福度はいくつですか」の質問に変数名をつけるなら「幸福度」が1番無難ですね!質問からその質問内容がある程度推測できるような変数名をつけるように心がけましょう。
データセットの構造のルール
データセットを作成する上で必ず守らなければならない構造のルールがあります。必ず1行目は変数名、1列目は通し番号にしてください。
1行目を通し番号にしておかないと、統計ソフトにデータセットを読み込んだときにエラーになります。
また、1列目は通し番号を付けてください。変数名はIDでもNoでもなんでもいいです。これがないと、もし並び替えをしたときに、もとに戻せなくなります。また、通し番号で標本数も確認できます。
ついでですが、データセットに個人情報とデータを同時に記録しないようにしましょう。今回の場合は「名前」が該当します。ほかにも「住所」などの個人情報は別のデータセットで保管しましょう。このように、万が一のデータ流出に備えて、データセットは匿名化しておきます。個人情報とデータは、IDなどをキーにして対応させるようにしますが、当然ですが一緒に保存はしないようにしましょう。
変数の値のルール
変数名の入力が終わったら、それぞれのアンケート調査の生データを見ながらデータを入力していきます。その時も次のルールを意識しましょう。
特に名義尺度については入力するときに注意が必要です。性別や有無などの二択(二値データ)の場合は、0と1で入力しますが、研究において注目している方を1としましょう。性別に関しては慣例で男性を0、女性を1とすることが多いです。
順序尺度は、1から順番に値を振ります。これもどちらを小さい値にするか少し考えて振りましょう。例えば幸福度を見てみましょう。「幸福度が高い」というと「幸せ」と捉えることができるので幸福を5、不幸を1にすべきです。しかし、変数名を不幸度に変えた場合、不幸を5にした方が自然です。
間隔・比例尺度と自由記述はそのまま入力しましょう。
また、名義尺度のデータはなるべく注目をそろえましょう。リア充の行動に注目したとします。アンケート調査通りに「はい」を1にしていくと、「友達は5人未満ですか」の注目がそろいません。
こういった場合、変数名を付けるときに質問を逆転させ、注目をそろえておくとデータが活用しやすくなります。そもそも、アンケート調査をつくる段階で、この辺りは意識しておくべきですね。
ただ、臨床系の既存アンケートを取り入れるこういったことはよくあります(わざと逆転させていることもある)。そんな時は、データ化するときに工夫するといいでしょう。
これはよく間違える注意点です。まずは右下の間違った入力を見てください。1つの質問で複数回答できる場合、ついついこのように入力しがちですが間違いです。
複数回答の場合は、選択肢ごとに変数を作り、選択された場合1を選択されていない場合0を入力してください。こうしておかないと統計解析で利用できません。
注意点の3つめは対応のあるデータについてです(※配布資料にはありません)。対応のあるデータを入力する際は、それぞれ列を分けます。ただし、変数名の重複は許されないので、変数名の頭か末尾に測定年や第〇回などを追加しておくとよいでしょう。
データセットの整形のコツ
これは直接統計解析に影響はしませんが、見た目をよくしておくと取り回しがよくなります。
一般に変数名は数値データより長くなります。セルの横幅を変数名の長さに合わせると、数値データ的には無駄になってしまい、データセットが横に長くなってしまいます。そこで1行目の変数を縦書きにすると、横幅を縮めることができるので、データセットをスマートに表示させることができます。
また、文字の装飾をしても統計ソフトでエラーはでにくいので、変数名の背景に色を付けたりして見やすくすることもできます。
また、長い変数名やデータは見切れてしまうので、「ホーム」メニューの「配置の設定」から「全体を縮小して表示」にしておくと見やすくなります。
データ入力の前に変数の対応表
紹介が最後になりましたが、できれば変数の対応表はデータの入力前、もっと言うならアンケート調査を作成したときにつくるのがベストです。これを作るのは正直めんどくさいですが、絶対に作っておくことをお勧めします。
内容としては、変数名一覧と、元になった質問、備考欄には値の意味(値ラベルともいう)を記載しておくとよいでしょう。また、必要に応じて既存調査の名前や測定装置名など記載しておくのもいいと思います。わかればいいので、網羅的に票を埋めなくても、必要なところをメモするように作成しましょう。
これがあれば複数人でデータセットを共有しやすくなり、忘れても見直すことができます。すべての変数で作っておくのが理想ですが、少なくとも注意が必要な変数(例えば逆転させた変数など)は対応表を作っておかないと、下手すると間違って統計解析してしまう恐れがあります(逆転させたことを忘れて解析すると結果が180度反対になる)。
まとめ
Excelを使ったデータセットの作成を、注意点や作成する際のコツを学びながらやれたでしょうか?これから研究を行う人はデータセットを作成することを視野に入れて質問を考えてみてください。すでにデータがある人は、この記事を参考にわかりやすくきれいなデータセットを作成してみてください。