【読書メモ】ナンバーセンス ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方
2016-10-08-1
[BookReview]
これ系の話は好きなので読める機会になるべく読むようにしています。ビッグデータ分析結果の読み方の落とし穴、統計的インチキ(統計テクニック)など事例多数の楽しい読み物。「ヤバい統計学」(未読・積読中)の続編的な位置づけで言及箇所もいくつか。
■カイザー・ファング, 矢羽野 薫 / ナンバーセンス ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方
第1章は、優秀な学生を集めたいロースクールがランキングを上げるための努力(統計テク)。
共通試験スコアの中央値がランキングに使われている場合の中央値調整。
頑健なはずの中央値もあれやこれやで操作できる。
その他、データの水増しいろいろ。就職率とか。
第2章は、健康の指標について。
特に肥満に関して。
BMIの大雑把さ。
判定基準のあやうさ、操作されやすさ。
あと、リスクは高いが(死亡率1〜2%)確実なのは胃バイパス手術。
第3章は、グルーポンの話。
グルーポノミクス。
飲食店の利益と損失。
批判的に検証。
今となっては時間が証明している感じ。
なんであんなにもてはやされたのか。
言葉:反事実的検証。
第4章は、引き続きグルーポン。
クーポンのパーソナライズについて。
当たり前だけど基本的にヒット率は低い。
低くても収益が上がれば良いのだが。
アルゴリズムは精度が上がれば上がるほど「クーポンがなくても買ってくれる人」を選びがちで店としては損失となる。
第5章は、顧客ターゲティングの難しさについて。
前章の続きみたいな感じ。
ネット行動で妊娠を判定する。
妊娠指数。
言葉:潜在因子、プライミング効果。
第6章は、雇用統計、失業率の話。
失業者数の定義は結構複雑。
いろいろな前提で調整されてる。
生データと調整済みデータのトレードオフ。
第7章は、物価変動の話。
これまた複雑。
言葉:価格健忘症。
第8章は、スポーツのデータ分析について。
言葉:Percentile Rank
§著者の考える「ビッグデータ」。
§ナンバーセンスとは統計のリテラシーのこと
§その他
「シンプソンのパラドクス」=「母集団内での相関関係と、母集団が二つ以上に分割された場合に成立する相関関係が異なる場合があるというパラドクス」
(p.23)
■カイザー・ファング, 矢羽野 薫 / ナンバーセンス ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方
世の中おかしな分析だらけ。(Kindle版:ナンバーセンス)
- レストランの集客にクーポンは役立つ?
- 失業率の増減を実感できないのはなぜ?
- ダイエットできるかどうかは統計次第?
その統計を信じるな!
大学ランキング、肥満、クーポン、失業率、フットボール、物価……。
身近なエピソードを題材に、複雑な統計をやさしく“解きほぐす"。
どれが正しい分析で、どれが間違った分析なのか。
ビッグデータ時代に必須の統計リテラシーは、誰にでも身につけられる。
第1章は、優秀な学生を集めたいロースクールがランキングを上げるための努力(統計テク)。
共通試験スコアの中央値がランキングに使われている場合の中央値調整。
頑健なはずの中央値もあれやこれやで操作できる。
その他、データの水増しいろいろ。就職率とか。
第2章は、健康の指標について。
特に肥満に関して。
BMIの大雑把さ。
判定基準のあやうさ、操作されやすさ。
あと、リスクは高いが(死亡率1〜2%)確実なのは胃バイパス手術。
第3章は、グルーポンの話。
グルーポノミクス。
飲食店の利益と損失。
批判的に検証。
今となっては時間が証明している感じ。
なんであんなにもてはやされたのか。
言葉:反事実的検証。
第4章は、引き続きグルーポン。
クーポンのパーソナライズについて。
当たり前だけど基本的にヒット率は低い。
低くても収益が上がれば良いのだが。
アルゴリズムは精度が上がれば上がるほど「クーポンがなくても買ってくれる人」を選びがちで店としては損失となる。
第5章は、顧客ターゲティングの難しさについて。
前章の続きみたいな感じ。
ネット行動で妊娠を判定する。
妊娠指数。
言葉:潜在因子、プライミング効果。
第6章は、雇用統計、失業率の話。
失業者数の定義は結構複雑。
いろいろな前提で調整されてる。
生データと調整済みデータのトレードオフ。
第7章は、物価変動の話。
これまた複雑。
言葉:価格健忘症。
第8章は、スポーツのデータ分析について。
言葉:Percentile Rank
§著者の考える「ビッグデータ」。
私の考えるビッグデータは、業界の基準より範囲が広い。肝心なのはデータが増えていることではなく、データの「分析」が増えていることだ。
ビッグデータ時代の真の原動力は、データの量ではなく有用性だ。
§ナンバーセンスとは統計のリテラシーのこと
ビッグデータの時代には、より多くの分析が生まれると同時に、問題のある分析も多くなる。専門家や数字の天才と言えども完ぺきはありえない。そして問題のあるデータは、よからぬ輩が悪意をもってあおるだけでなく、善意のアナリストも騙されかねない。データがあふれるこの世界で、消費者はことさら数字を見抜く力を磨かなければならないのだ。
(p.18)
ビッグデータは現実であり、今後も多大な影響を及ぼすだろう。少なくとも、私たちの誰もがデータ分析を消費している。だからこそ、より賢い消費者にならなければならない。そのためには統計のリテラシー、すなわち「ナンバーセンス」が必要なのだ。
(p.26)
問題のあるデータやアナリストを見たときに、何かが違うと感じる。それがナンバーセンスだ。
私がデータ分析の専門家に求める第一の資質は、ナンバーセンスだ。ナンバーセンスがあるかないかで、単に優秀なアナリストか、それとも真の才能あるアナリストなのかが決まる。
(p.27)
ナンバーセンスを育む最善の方法は、統計の現場に出て学ぶことだ。
この本が、そのきっかけになってほしいと願っている。最近注目されている統計の話題に疑問を投げかけ、整合性を確認し、データによる定量的な説明を試み、ときには関連するデータを入手して分析しながら、それぞれの主張を検証していく。
§その他
「シンプソンのパラドクス」=「母集団内での相関関係と、母集団が二つ以上に分割された場合に成立する相関関係が異なる場合があるというパラドクス」
(p.23)
クリス・アンダーソンは2008年に、「十分な量のデータがあれば、数字がおのずとかたりだす」と言った。誰もあえて口にしないが、相関関係のモデルが導き出した予測の大半は間違っている。[...]ビッグデータの到来は、理論の終焉ではない。
(p.167)
この記事に言及しているこのブログ内の記事