店舗売上データ:データ加工の基本をマスターしよう

この「店舗売上データ」は、実際のビジネスデータによく見られる「表記ゆれ」「欠損値」「誤入力」といった「汚れた」状態を意図的に含んだ架空のデータセットです。

統計解析を行う前には、このようなデータを「きれいな」状態に整える「データクレンジング」という作業が不可欠です。このデータセットを使って、SARU統計の「データ管理」ツールを駆使し、解析可能なデータへと加工するプロセスを実践的に学ぶことができます。

1. データ概要

このデータセットには、以下の情報が含まれています。

  • 取引ID: 各取引を識別する番号
  • 顧客名: 顧客の名前
  • 性別: 男性、M、女性(表記ゆれあり)
  • 年齢: 数値、一部に「不明」などの文字列が混在
  • 購入金額: 数値、一部に「円」などの単位や「エラー」の文字列が混在
  • 購入商品カテゴリ: 食品、日用品、衣料品(一部に欠損値あり)
  • 割引率: 数値、一部に欠損値あり
  • 店舗エリア: A、B、C
  • 支払い方法: 現金、カード、QR

意図的に様々な種類の「汚れ」が含まれており、データ前処理の練習に最適です。

2. SARU統計での活用例

データ管理ツールでデータをクレンジングする

  1. メニューから「📊 データ管理」 > 「👁️ データセット画面へ」を選択し、現在のデータを確認します。多くの「NA」や不自然な値が見つかるはずです。
  2. 「🔄 置換・順序」ツールで「性別」の表記ゆれを統一します。
    • 「性別」を選択し、「M」を「男性」に書き換えます。
  3. 「➕ 変数作成」ツールで「年齢」の文字列を数値に変換します。
    • 新しい変数名に年齢_数値と入力し、計算式にifelse(年齢 == "不明", NA, as.numeric(年齢))と入力します。
    • 同様に「購入金額」から単位やエラーを除去し、数値に変換する新しい変数を作成します。
  4. 「🗑️ 欠損値処理」ツールで「購入商品カテゴリ」の欠損値を削除します。
    • 「指定変数のみ」を選択し、「購入商品カテゴリ」にチェックを入れて実行します。
  5. 「✂️ 絞り込み」ツールで、特定の条件のデータだけを残します。
    • 例えば、店舗エリア == "A" と入力して適用すると、「店舗エリアA」のデータのみが残ります。

3. ヒント / 応用

  • 前処理の効果を実感: データクレンジングを行った後、再度「👁️ データセット画面へ」でデータを確認したり、簡単な記述統計(例:オールインワン統計で「購入金額」の平均値を見る)を実行してみましょう。前処理によってデータが「きれい」になり、解析が可能になったことを実感できます。
  • 変数管理: 「データ管理」の「⚙️ 変数管理」ツールを使って、不要になった元の「性別」や「年齢」の変数を削除したり、新しく作成した変数の名前を分かりやすく変更したりする練習もできます。
  • クレンジング後の検定選び:
    • データを整えた後の解析では、人数(n)を確認しましょう。各グループが30人以上なら、迷わず「📊 平均値±SD」(ウェルチ法)へ。30人未満なら「📈 中央値[IQR]」へ。
  • 多重性の問題を避ける:
    • クレンジング中に何度も検定を試すと、意図せず「都合の良い結果」を探してしまうリスクがあります。解析手法は分布のチェック(事前検定)ではなく、サンプルサイズ(n)という客観的な指標で機械的に決めるのが、研究の透明性を高めるコツです。

4. まとめ

この「店舗売上データ」は、データ前処理の重要性と、SARU統計のデータ管理ツールの強力さを学ぶための実践的な教材です。実際のデータ分析では、解析ロジックよりもデータクレンジングに多くの時間が費やされることが多いため、このスキルは非常に役立ちます。

タイトルとURLをコピーしました