ビジネスマンが今日からデータサイエンティストになる方法 (3/3)

シェア

0
ポスト

自分でデータ分析をすれば、データを見る目が養われる

ここまでできたら、アウトカムである売上と、スタッフごとの特徴を表す説明変数との間にどんな関係があるかを、統計学の手法で計算していけばいい。といっても、計算手法についても定石があり、売上のように数値として計算できるアウトカムなら「重回帰分析」という手法を使うことになる。一般的な統計学の教科書には、いくつもの手法が紹介されているが、まずは重回帰分析だけでも多くの発見があるはずだ。重回帰分析は、アウトカムと複数の説明変数の相関関係を分析する手法だが、ユーザーはその仕組みを知らなくても、手順にしたがってExcelを操作すれば、簡単に分析できる（詳しい手順については、『1億人のための統計解析』（日経BP社）を参照してほしい）。

重回帰分析の結果を見ると、売上に影響を与えている説明変数が見えてくる。この例でいえば、残業時間中に受注処理をしているスタッフは売上が低い、特定の製品ジャンルの割合が高いスタッフほど、売上が高いといったことがわかるかもしれない。逆に、何となく関係がありそうだと思っていたスタッフの性格が、まったく売上には関係がないことがわかるである。最初から「残業を熱心にするスタッフは売上が高いか」などと仮説を立てるよりも、はるかに効率よく意味のある発見ができるようになるのだ。

このようにデータ分析を行って初めて、仮説を立てる意味が出てくる。

「残業をしていないスタッフは売上がよいようだが、残業禁止にしたら売上はどう変化するだろう？」

「新規にスタッフを採用するとしたら、どんなスキルを重視すべきだろう？」

分析結果を元に施策を行って、その結果をさらに検証していくことで、ビジネスを改善していくことができるわけだ。高度な統計学の知識やプログラミングスキルがなくても、十分に意味のある発見を行えることがわかるだろう。データサイエンティストはけっして特別な職種ではないのだ。

さらに、自分でデータ分析を実際に行い、考察を重ねていくと、ビジネスに限らずデータを見る目が養われていく。

「この製品は使用者の満足度ナンバーワンといっているけど、データの集め方がおかしくないか？」、「この政治家は、数字を出してもっともらしいことを言っているけど、本当にそうなんだろうか？」

データ分析というツールを手に入れることで、ビジネスという枠組みを超え、社会や世界の見方も変わっていくはずだ。

[写真] データ分析結果の例。多くの数値があるが、おもに見るべきは「P-値」と「係数」だ。「P-値」は、説明変数とアウトカムの相関関係が偶然に起こる確率を示している。例えば、P-値が0.01なら、このような結果が偶然に生じることは100回に1回程度あるということになる。通常はP-値が0.05（5%）以下なら偶然ではないと判断する。

「入社時テスト（数量処理）」を例に取ると、P-値が約0.02となっているので、アウトカムである「売上」と説明変数の「入社時テスト（数量処理）」の間には偶然とは考えにくい関係があることがわかる。また、係数が「8414.658」となっているが、これはテストの点数が1上がるごとに売上は平均で「8414.658円」上がることを示している。

[ 脚注 ]

*1: Hadoop：Apache Software Foundation(ASF)が開発・公開している、大規模データを効率的に分散処理・管理するためのソフトウェア基盤(ミドルウェア)。オープンソースソフトウェアとして公開されており、誰でも自由に使用できる。

Writer

山路達也（やまじたつや）

1970年生まれ。雑誌編集者を経て、フリーのライター/エディターとして独立。IT、科学、環境分野で精力的に取材・執筆活動を行っている。
著書に『Googleの72時間』（共著）、『新しい超電導入門』、『インクジェット時代がきた』（共著）、『日本発！世界を変えるエコ技術』、『弾言』（共著）など。
Twitterアカウントは、@Tats_y