ここ数年、私はデータサイエンスについて学んでいます。おすすめの学習資料を紹介したいと思います。
教師用の教科書と初心者用の教科書
私自身、データサイエンスに学ぼうとして色々なソースを試してみました。残念なことに、日本語の良い学習資料は見つけられませんでした。どこかのブログで読んだことがありますが、日本の教科書は内容が既に分かっている教師の為の教科書で、アメリカの教科書は自学自習を目的に作られているので、教師なしで学ぶできる教科書になっているということです。私自身、他の文系・理系の教科書を探した時もアメリカの教科書の方が分かりやすく、その本だけを読めば分かるようになっていると同じ印象を持ちました。
オンライン教育(MOOC)
アメリカは科学教育に熱心であり、最近はやりのMOOCでも豊富なコースが無料で受けることができます。有名なのはCoursera, Udacity, EdXがありますが、私はもっぱらCourseraのファンなのでCourseraのコースを紹介します。
1. Machine Learning by Andrew Ng
Courseraの創設者の一人Andrew NGが講師で、ビジュアル的に板書で説明してくれるので、計算の理屈がよく分かりました。Courseraのコースの中で最も授業が上手だと思います。
2. Johns Hopkins 大学のData Specialization
これは9つのData Science関連コースが合わさったものですが、中のRoger D. Pengのコースがお勧めです。Rの基礎やデータクレンジング等について丁寧に解説してくれます。しかし、Brian Caffoのコースは説明が下手なので、お勧めしません。
3. Social Network by Lada Adamic
ソーシャルネットワークやネットワークグラフに興味のある人は取ってみたら良いとおもいます。
4. Mining Massive Datasets from Stanford大学
私はまだコースを受講していませんが、かなりきっちりとカリキュラムが組まれているようです。
授業内容は書籍が出版されているようで、PDF版は無料で見ることができます。良質の教材を惜しみなく無料提供するというStanford大学の太っ腹さには驚かされます。
Khan Academy と CK-12
Courseraとは別に高校や大学教養学部レベルのものであれば、Khan AcademyとCK-12を覗いてみるのもよいでしょう。Courseraでは説明が不十分な基礎的な知識はこちらの二つのサイトの動画を見て学びました。
カーンアカデミー(Khan Academy)は講義の動画がYouTubeに載せてあります。
Khan Academyのprobability and statistics
CK-12はあまり有名ではありませんが、 高校レベルの講義資料や教科書を無料提供しており、高校レベルで教えてくれるのでとても助かります。
CK-12のFlexBookという教科書は、PDFやepubで読むことができ講義画像へのリンクもついています。
CK-12には他のレベルの統計学の教科書もあります。
書籍
著者は高校の先生なので非常に丁寧に説明してくれるの多変量解析のことがよく分かるようになります。
勉強会
東京で開催されている統計プログラミング言語Rの勉強会です。
一人で勉強していると周りが見えなくなることもありますので、一緒に学ぶ人を見つけるのがよいでしょう。他にも多くの勉強会があるので、探してみましょう。
英語の教材が多くなってしまいました。統計学やデータサイエンスを学んでいくと、やはり欧米の科学教育に対する層の厚さをひしひしと感じます。英語という障壁はありますが、その障害を補っても余りある学習効果があると思いますので、是非英語の教材にも挑戦してみてください。