i-realize-myself

自己実現ほど面白い目標はない

*

2017/3/16 データ/グラフには罠があるかも?統計を見るときのポイント

   


こんばんわ、そろそろ読書の春ですかね。どうも春ユッケだz。本日は、過去に勝間塾にて推薦された「統計でウソをつく法」ダレル・ハフ著を再読してみました。

IMG_6495

初めて本書を手に取った時は「推薦されたから読んでみた」というスタンスでした。
現在はビジネスでもデータに触れる機会が多くなり『統計学』というキーワードをよく聞くようになりました。先日に書棚の整理している時にこの本が目につき、今回再読することにしたというわけ。



本書は、ダレルハフにより1968年に初版が世に出たものです。

初めて読んだときも「1968年代のものだからか、なんか読みにくい言い回しだな」と思ったことをよく覚えてます。
今回も「もしかしたら原本のまま読むとすんなり入ってくるのかもしれない」とか思いながら、なんとか読み終えたのですが、よくよく訳者あとがきを読んでみると、訳者:高木秀玄さんも「原著に普通の字引に内容な表現が非常に多い」と言っていいた。

うん、原著もすんなりとは読めないかもしれないと思いなおしました。

さて、内容をそのまま書くわけにもいかないし、概要を記載するだけでは面白くないので、ここからは本書で学べたことを「統計を見る/使う立場」「統計を作り/伝える立場」でまとめてみた。

統計を見る、使う立場

「統計でウソをつく方法」と銘打っていることから分かるように、世の中に誰かによって発信される統計情報には、全てではないにしてもその人の思惑が多かれ少なかれ入っています。

本書の中では具体的にどんな思惑が、どのような方法で発信する内容に統計情報として付与されてるかを具体例交えて語られています。

例えば「新しい歯磨き粉を12人で実験した結果、新しい歯磨きを使った6人で」これがウソです。

ではどんなところに気をつけて統計を見れば良いのでしょう

平均とは何か?

よく言われる平均値は、算術平均と言って「すべてを合計して、それを個数で割る」です。しかしこれだと「?」と思うときありませんか?その場合はきっとイレギュラーな数値に引きづられてしまっているのです。この場合は、中央値というものが良いかもしれません。全てを昇順に並べた真ん中の数値です。または最頻値もいいかもしれません。

テスト平均点などは算術平均でいいかもしれませんが、給与金額などはお気をつけください笑

サンプルは正しくランダムであるのか

その統計の基となったデータがどういった内容のものなのか?まずは前提条件を確認する必要があります。そして、その前提が本当に偏りのないものとなっているかを吟味する必要があります。

アンケート調査などで多いと思われますが、回答結果を元に算出した統計であれば、その回答を頂けなかった側のことも考えてみましょう。

グラフに視覚的なトラップはないか

簡単なことですが、棒グラフの高さで表してたものを絵にしてみるというトリックがあります。本当は2倍の違いが、それを絵(例えば家畜数の比較で棒グラフの高さを牛のイラストで代替してみる等)で表したものは2倍以上の違いのように思えてしまいます。(横や奥行きもイラストは増えるからね)

またグラフの目盛りを省略しちゃったり、細かくするという手もあります。

個人的に感じたこと

この他にも色々なことが紹介されています。それも大統領選挙やギンゼイレポートなどなど具体的な事例を交えてです。

自分も統計をみるとき、その情報を「発信した人たち」というのが間違いなくいることを意識しようと思いました。そして彼らが「何を結果として訴えたいのか」その理由を念頭に置きながら、提示される統計情報を吟味すべきなのだということを理解しました。

統計を作る/伝える立場

では、実際に統計を作る/伝える立場となった場合、どうすれば良いか?ウソをつくのもありですが、より重要なのは「その統計情報の確からしさ」を損ねないように何を注意して統計に取り組んで行くか?だと本書で感じました。

統計を作る/伝えるときに気をつける3つのこと

本書籍を全て読み終えて、こと自分がデータを作る側/伝える側であることを思い出します。

そこで特に気をつけるべきポイントはこの3つだということに思い至りました。

データ出所や統計方法を明らかに出来るか?

とにかく自分の作った結果、グラフ、統計方法、データを自分がいなくても伝わるか?を意識して見返してみます。

 データに足りないところはないか?

特に統計を始める時のデータに注意が必要です。

比較するデータ同士の前提に違いはないか?

サンプルを使うならば正しくランダムなものとなっているか?

 データと結論の間ですり替えが起きてやしないか?

そしてデータの統計をもとに語る結論ですが、結論のすり替えが起きてないか?データがその結論を正しく示しているか最後に確認が必要です。

また、これは分析を始める前の話ですが、自分が主張したいこと表すものを今から行う統計で導けるのかしっかり確認することも大事です。

 

本書について

勉強になった 4(5段階 5max 1min)
この本を手に取る人は、統計について学ぼうとする志高い人という前提で。なんとなく思っていたことが、色々な具体的例(○○大学の卒業生の平均収入は○○ドル:これは卒業生へのアンケート調査での結果であるが、この場合は母集団が「アンケートが届いて、年収を伝えても良いという方だけに偏っていた」)で明文化されて腹落ちしてきかす。

また統計を作る側の視点でも多くのページを割いていることもGOOD。ただ最初に書いた通り、読み難いのは終始ありますので、心折れないようにご注意くださいねー。

 - スキル, 統計 , ,