荷物持ちでも構わない

文系大学4年生からデータサイエンティストを目指して頑張りつつ、書きたいことを書きたいときに書きたいだけ書く、ルール無用雑記ブログ。

MENU

『データサイエンス「超」入門』の感想|データを疑う力を養う本

この記事は5251文字で、約9分で読めます(1分600字換算)

データサイエンティストで作家でもある、株式会社デコムの松本健太郎さん(@matsuken0716)と、何の縁でかツイッターで相互フォローさせていただいているのだが、

その松本健太郎さんが、9月28日に『データサイエンス「超」入門 嘘をウソと見抜けなければ、データを扱うのは難しい』という新刊を出されるということで、

ツイッターでの縁を通じて、発売に先立って献本をいただいたので、宣伝も兼ねてその感想文をブログにまとめようと思う。

スポンサードリンク

「データを疑う力」=「リテラシー」を養う本

『データサイエンス「超」入門』というタイトルだが、この本は統計学の基礎を学ぶ本ではない。

データサイエンスという言葉を、統計学や機械学習に限定せず、データを分析し活用することと広く捉え、実際に公開されているデータやニュースを題材に、

データを見る力、データを疑う力を養うという意味での、『データサイエンス「超」入門』である。

本書では、そうしたデータを扱うために必要な力のことを「リテラシー」と呼んでいる。

「リテラシー」を高めることで、ニュースや一般論を鵜呑みにするのではなく、きちんとデータから真実を見抜けるように、データをきちんと理解できるようになろうというのがこの本の趣旨である。

スポンサードリンク

『データサイエンス「超」入門』の構成

本書の構成は全10章+1章で、以下のようになっている。

00.バイアスだらけの私にリテラシーを

01.「世界から愛される国、日本」に外国人はどれくらい訪れているのか

02.なぜネットと新聞・テレビで支持率がこんなに違うのか

03.結局、アベノミクスで景気はよくなったのか

04.東日本大震災、どういう状況になれば復興したと言えるのか

05.経済大国・日本はなぜ貧困大国とも言われるのか

06.人手不足なのにどうして給料は増えないのか

07.海外旅行、新聞、酒、タバコ…若者の○○離れは正しいのか

08.地球温暖化を防ぐために、私たちが今できることは何か

09.糖質制限ダイエットの結果とデータにコミットする

10.生活水準が下がり始めたのか、エンゲル係数急上昇の謎

1章ずつ、簡単にだが感想を書いていこうと思う。

第0章 人間誰しも持っている「バイアス」を取り除く話

データ分析を行うとき、邪魔になってくるのが、「バイアス」という存在である。

バイアス(bias)とは英語で「偏り」という意味の言葉だが、一番有名なのは「生存バイアス」という言葉じゃないだろうか。

うまくいったもの、生存したものだけを見て判断してしまい、それが正しいと信じ込んでしまうことだ。

データ分析の場では、得られたデータが正しいと信じ込んでしまうバイアスや、調査対象が異なることによるバイアス、調査方法に問題があることで発生するバイアスなど様々なバイアスが存在する。

しかし、データ分析を正確に行うためには、これらバイアスの存在を知り、取り除いてやるか、取り除くのが難しければバイアスの存在も織り込んでデータを見る必要がある。

そういった、正しくデータを見る力=リテラシーを養う入り口となるのがこの章。

中でも一番広めたいのが、「あらゆる分析は、この『目的設定』が方向性を左右します。」という一文である。

いわゆる、データ分析者に必須のスキルとされる「仮説力」の話だ。

ビジネスやアカデミックの世界でデータを分析する人、そしてデータを分析する人に指示を出す上司は、必ずこの「目的設定」の重要性を知っておいてほしい。

というか、僕の上司にこの一文を読ませたい。この本で一番重要な一文とも言える。

第1章 日本に訪れる外国人観光客の話

日本に訪れる外国人観光客の話題から入り、様々な国の入国者データや、日本にやってくる外国人の内訳などのデータを通じて、

簡単な集計とグラフ、相関係数と散布図といった、統計学の知識がない人でもわかりやすい基本的なツールだけを用いて、これからの日本の観光産業市場を伸ばすマーケティング施策まで導き出している章。

大学でマーケティングを専攻しているデータ分析者の端くれとしては、普段「インサイト」の発見を生業としている本物のデータサイエンティストの力をまざまざと見せつけられた形である。

『データサイエンス「超」入門』の看板は伊達じゃないと思わされる、第1章にふさわしいわかりやすさ。

第2章 政党支持率と選挙を例にした標本調査の話

調査方法やサンプルとなる回答者が変われば、データの内容も変わってくるというのは、データ分析に携わる人間ならば常識であり、だからこそ、データを示すときには調査方法やサンプルの中身まで明示するのがいわば「お作法」となっているのだが、

データ分析に明るくない人からすれば、意外と気づかない点でもある。

出口調査による開票速報で標本調査について説明し、イギリスのEU離脱やアメリカ大統領選挙を例に、回答者が嘘をつくことによるバイアスについて説明している。

「一度全体を俯瞰して見てみると良い」とまとめているが、まさしくデータ分析に必須の視点であると思う。

第3章 GDPの正体から日本の「好景気」を疑う

一応社会科学系の学部に属している人間なので、GDPの欠点は授業で何度か聞かされてはいたものの、

「有料だったものがイノベーションによって無料に(安く)なる」ことで、GDPが下がって景気が悪くなったように見える、というのは知らない観点だった。

例として、電話や郵便がLINEに取って代わられたことを挙げている。

GDPという指標の不完全さについて説いている章。

第4章 東北と阪神の震災からの復興の話

データの見方について論じてきた第3章までと打って変わって、震災による被害を受けた地域の「現状」を、データから見てみるという章。

東北の被害の大きさは、データで見てもイメージとさほど変わらず、やはりまだ震災の爪痕が色濃く残る地域が多い様子だったが、

阪神淡路大震災の後に人口が激減したまま戻らない、いまだ「震災後」の状況にある地域がある、というのは意外だった。

データを細かく見てみることで初めて見えてくる真実もあるとわからされる。

第5章 日本の貧困と格差を考える話

日本の貧困について調べるために使われるデータは大きく2つあるが、その2つの内容は大きく乖離しており、実態を捉え切れていない現状があるという話。

しかし、片親世帯の貧困率がOECD加盟国1位であるという現状は今すぐにでも改善に向けて取り組むべき課題と感じた。

それだけに、貧困層を正確に捉え、撲滅しようとする政府の動きが見られないのが歯痒く感じられる章。

第6章 日本の雇用データを疑う話

 人手不足と言われる割に給料が上がらないのは、人手不足の原因が単なる労働力の減少ではなく、一部の業界だけが急激に人手不足が進行しているから、という事実をデータから明らかにする話。

より具体的に言うと、飲食やサービス産業が、少ない人員で無理に事業を回していたのが、昨今のブラック企業批判によって人員を増加させざるを得なくなり、結果として人手不足が叫ばれるようになったというのが理由で、他の業界はそこまで人手不足が進行していないために給料が上がらないのだという。

「売り手市場」は本物か、という疑いの視点が必要。

第7章 「若者の○○離れ」の真実を暴く話

若者が離れているように見えるのは、実は若者の絶対数が減っているからだったり、若者だけでなく全年代が離れているからだったりと、「若者の○○離れ」の真実をデータから暴いていく話。

サブタイトルにもなっている、「嘘をウソと見抜けなければ、データを扱うのは難しい」を象徴するような内容の章。

第8章 地球は本当に温暖化しているのか?

平均気温などのデータを元に、地球温暖化の真実に迫る話。

読み始めた時は、「平均」データばかりが出てくるので、この章だけ信憑性に乏しくないか?と思いながら読んでいたのだが、最終的には最高気温と最低気温を比較することで、「地球は暑くなっているのではなく、寒くなくなっている」という結論を導き出している。

結果的に、「平均値は万能ではない、むしろ疑ってかかるべき」というデータ分析の常識を教えてくれる章になっている。

第9章 ダイエットの話

最終章である第10章を前にして、この章だけなぜかデータの話が少なく、終始ダイエットや身体の仕組みについての話になっており、「これ何の本だったっけ?」となる章。

最終章前の小休憩として設けられているのかもしれない。

それでもちゃんと勉強になることはあって、株やFXや仮想通貨のトレードで使われる「移動平均」が、「短期のトレンドを打ち消す」目的で使われているということは知らなかった。

なんとなくローソク足チャートより移動平均線の方が動きがわかりやすいよね、程度の理解だったのだが、それをちゃんと言語化するとこういうことになるらしい。

第10章 エンゲル係数の上昇を疑う話

生活様式の変化、物価上昇、所得の増減、標本の実態など、エンゲル係数にまつわる様々なデータを細かく分析して、日本のエンゲル係数の上昇の真実に迫っていく、まさに「嘘をウソと見抜く”リテラシー”」を身に着けるにふさわしい、本書のまとめとなる最終章らしい内容の章。

前章までの内容を総括するような構成で、データを見るときにバイアスを取り除くことの重要性を再確認させられた。

スポンサードリンク

まとめ

『データサイエンス「超」入門』というタイトルから、最初は統計学の基礎知識について解説するような入門書かと思っていたのだが、実際は、統計学の知識よりももっと重要で根本的な、「データを見る力」を養う本であった。

普段データ分析に携わっている人も、改めて勉強になる内容は多いと思うし、そうでない人にとっても、教養として学ぶことは多いと思う。

そして、何より文章が読みやすい。

以前このブログで取り上げた、『誤解だらけの人工知能』と同じ著者だけあって、難しい内容を簡単に説明する力に長けていて非常にわかりやすい本になっていた。

www.messyer813.com

 

今回この本を読んだのは、ツイッターでの縁で特別に献本としていただいたことがきっかけなので、正式な発売日はまだ先で、9月28日が発売日となっている。

鮮やかな黄色とオレンジの表紙で、書店でも目立つ色だと思うので、興味がある人は、見かけたらぜひ手に取ってみてほしいと思う。

データ分析に携わる人もそうでない人も、必ず何か得るものがある、決して読んで損はない内容の本だから。

このような良書を世に送り出してくださり、また献本という形でこの本を手に取らせてくださった、松本健太郎先生(@matsuken0716)に敬意を表して、この記事を〆とする。