(毎週火・木・土曜日は、パートナーエッセイにお付き合いください。)
板倉雄一郎事務所パートナーの下田です。
本日も統計の時間がやってまいりました!
“読むだけで数字に対する直感力が身に付く”
「統計のお話 第4回」をお届けいたします。
=====================================
1.【日常生活編】足の遅い人ほど収入が多い!
=====================================
突然ですが、以下の文章とデータがあったとします。
どう思いますか?
「20代から50代までのビジネスマンの
データを取ったところ、
足の遅い人ほど収入が多い」
図:足の遅さと収入の相関関係イメージ
『えぇっ!そんなバカな!
足の速さと収入に関係があるはずがない!』
と思った皆様。
大正解でございます!
確かに、足が遅くなったから収入が上がる!
なんてことはありません。残念(笑)!
でも、データ上では、
足が遅い人ほど収入が多い、というデータがある。
これ如何に??
こ
こ
は
考
え
る
時
間
で
す
良く考えれば、これって、あり得ない話でもないと思いませんか??
20代のうちは、経験も実績もなく平均すれば、収入は少ない。しかし、体力は、かなりあるわけです。当然足も速いでしょう。
それに対し、50代になれば、それまでに積んだ経験と
過去の実績をひっさげて、大きなビジネスをしている人も多く、
平均的に、20代よりも収入が高いと思いませんか?
そして、当然20代よりも平均すれば体力は減少し、
足も遅くなっているはずです。
つまり最初に述べた
足の速さが遅い人ほど収入が多い
というのは、ウソとはいえない
しかし、ウソではないのに違和感を感じるのは、
そこには因果関係がない、ことを直感的に見抜くからです。
因果関係とは、シンプルに言うと
「原因と結果のつながり」のことです。
つまり、
足が遅くなったから
↓
収入が増えた
のではなく、
収入が増えたときには
↓
年が経ち、体力が衰えて、足も遅くなっている
のですね。
どちらも数学的には相関します。でも似て非なるものですよね。
間に隠れた要因である、「年齢」をいれて図にすると
スッキリします。
図:足の遅さと収入の相関構造
足の遅さと年齢が相関し、収入と年齢も相関する。
そのため、数学的には、足の速さと収入は相関してしまうが、
それは、因果関係ではないので意味を為さない、というわけです。
要するにこの「足が遅いほど収入が高い」というのは
風が吹けば桶屋が儲かる、的な文言であると言えます。
今回のように、一見して分かりやすく
間違っているものはすぐに見抜けるのですが、
世の中の“頭の良い人たち”はもっと巧妙に
文章に仕掛けてきますから、気をつけていきましょう。
以下に、巧妙とは言えませんが、
ちょっとだけ反論しにくい実例を挙げます。
今回のテーマ「相関と因果」に沿った突っ込みをいれてみましょう。
=============================================
猪口少子化男女共同参画担当大臣の発言、
「女性の社会進出と出生率には相関関係がある。
だから、女性が社会進出すれば少子化問題が解決できる。」
=============================================
これ、データ見なくても分かりますけど、
確かに相関はしているんでしょう!
でもね?、因果関係が怪しいねぇ・・・。
(なんとなく、怪しいと思ったら
その直感はほぼ当たっています。
この統計エッセイは皆さんの数字に対する
直感を磨くのが目的です。)
今の皆さんならキッチリと突っ込めますね!
「相関関係はあるんでしょうけど、
本当にそこに因果関係があるの??」って。
猪口氏が因果関係がないことを知っていて、
あえて“データという思考停止装置”を見せるために
上記の発言をしたのかどうかはわかりませんが・・・、
皆さんも相関を使う際は気をつけましょうね!
(ちなみに女性の社会進出自体は良いことだと思っています。
“無理矢理”少子化問題につなげるのはマズイ、というお話しでした。)
============================================
2.【ビジネス編】あなたのビジネスに統計を活用する方法
============================================
今回のテーマは相関です。
相関を行う一つの例として、
“コンビニでの商品配置”の例を考えます。
と、その前に、
まずは、簡単な例で見てみましょう。
表:100m走のタイムと収入
これを散布図に表すと
図:100m走のタイムと収入の散布図
こういった形になります。明らかに相関がありそうですね。
(でも因果関係はありません・・・笑)
この表から相関係数を求めることは出来ますか?
エクセルだとcorrel関数で求めることができます。
今回の例でcorrel関数で計算すると0.995という数値になります。
<ここから13行ほど相関係数の説明です。
分かる方は飛ばしてください>
さて、ここで相関係数についてお話しすると、
相関係数は、かならず-1から1までの値をとります。
1に近ければ近いほど、正の相関(一方が増えるともう一方も増える)、
-1に近ければ近いほど、負の相関(一方が増えるともう一方が減る)、
0に近づくほど、相関がない、ということになります。
一般的には、相関係数が0.8以上あれば、相関ありと判断しても
良いと思います。しかし、0.8自体に明確な根拠はありません。
(相関係数を2乗した数値を決定係数と言い、
そちらを相関の判断に用いる場合もあります)
<相関係数の説明終わり>
さて、今回は0.995ですから、
正の相関があるといってよさそうです。
では、冒頭の“コンビニでの商品配置”の例を考えます。
下記のように、商品群の季節毎の売上があるとします。
表:商品群の季節毎の売上(百万円)
このときに、この商品群の中から相関の高いものを
選び出して、近くに配置したら、売上がアップするかもしれません!
そこで、商品A?Dそれぞれの相関係数を見てみましょう。
correl関数を使って一つずつ、
相関係数を確認していくこともできます。
が、商品点数が増えるととんでもない回数を
計算していくことになりますし、
あまり賢そうに見えませんね(笑)。
そこで、分析ツールの相関を使います。
エクセルのツールバーのツール(T)-分析ツール(D)を選択します。
そして、下記のように相関を選択します。
(分析ツールが表示されない、あるいは使えないという方は
MSofficeのCDを入れた上で再度操作してください)
すると、下記のダイアログボックスが表示されます。
入力範囲のところに元データの範囲を選択してOKを押します。
すると、下記のような表が出力されます。
この表の読み方ですが、
商品AとBの相関係数は-0.879…
商品AとDの相関係数は0.946…
となります。
このように分析ツールを使えば、
エクセルだけでも十分に、データの処理が出来ますし、
際だった相関データだけを探すことも出来ます。
これを見ると、商品Aと商品Dの相関が高いので、
この商品は近くに置くことによって、
より多く売り上げることができるかもしれません。
また、商品AとDを近くに置くことにより
売上アップになるかどうかは、
因果関係を見ていく必要があります。
たまたま同時期に需要があるだけで
必ずしも相乗効果があるとは限らないわけですからね。
今回はかなり簡略化したデータを用いていますが、
大量データを扱う方もいらっしゃると思います。
相関係数を見ることによって、商品の関係性を
見つけ出すことができます。
さらに考えを進めれば、
その裏にある購買心理を知ることができるかもしれません。
相関係数を見ることによって、
ご自身の仕事に役立ちそうな方は
是非使ってみてくださいね!
ちなみに、相関係数で考察するときの注意点を
下記に挙げますので、興味のある方はどうぞ。
1.散布図を見る(必須)
→元データの中に、外れ値(=異常値)がないかを
散布図を用いて確認しましょう。
目視で外れ値をはずしてから、
相関係数を求めるようにしましょう。
相関係数は外れ値に非常に影響を受けやすいのです。
2.因果関係を見る(必須)
→しつこいようですが、数字的には相関であっても
因果関係が全くない場合も十分あり得ます。
数字を過信しすぎずに、その裏側にある
顧客の心理や環境などを考察しましょう。
2006年12月5日 K.Shimoda
ご意見ご感想、お待ちしております!
統計のお話バックナンバー
統計のお話 第3回「母の集団?」
次回のパートナーエッセイは12月7日(木)にTakamura氏が担当します。