ここ数年、私はデータサイエンスについて学んでいます。おすすめの学習資料を紹介したいと思います。
教師用の教科書と初心者用の教科書
私自身、データサイエンスを学ぼうとして色々なソースを試してみました。残念なことに、日本語の良い学習資料は見つけられませんでした。どこかのブログで読んだことがありますが、教科書は教師用と学生用の二週類があるそうです。一つめは内容が既に分かっている教師の為の教科書で、日本はこのタイプです。もう一つのタイプの教科書は自学自習を目的に作られているので、教師なしで学ぶできる教科書になっているということで、アメリカはこのタイプの教科書が多いです。私自身、他の文系・理系の教科書を探した時もアメリカの教科書の方が分かりやすく、その本だけを読めば分かるようになっていると同じ印象を持ちました。
オンライン教育(MOOC)
アメリカは科学教育に熱心であり、最近はやりのMOOCでも豊富なコースが無料で受けることができます。有名なのはCoursera, Udacity, EdXがありますが、私はもっぱらCourseraのファンなのでCourseraのコースを紹介します。
1. Machine Learning by Andrew Ng
Courseraの創設者の一人Andrew NGが講師で、ビジュアル的に板書で説明してくれるので、計算の理屈がよく分かりました。Courseraのコースの中で最も授業が上手だと思います。最近、完全に日本語字幕もついたので、かなり受講しやすいです。
2. Johns Hopkins 大学のData Specialization
これは9つのData Science関連コースが合わさったものですが、中のRoger D. Pengのコースがお勧めです。Rの基礎やデータクレンジング等について丁寧に解説してくれます。しかし、Brian Caffoのコースは説明が下手なので、お勧めしません。
お勧めのコース
・R Programming 統計プログラミング言語Rの初歩
・Exploratory Data Analysis データ解析の予備的解析やデータ探索
・Reproducible Research データ解析手順を再現可能にするための技術(ドキュメント化やパブリッシング)
・Getting and Cleaning Data データ解析前のデータの整形や洗浄
3. Social Network by Lada Adamic
ソーシャルネットワークやネットワークグラフに興味のある人は取ってみたら良いとおもいます。
4. Mining Massive Datasets from Stanford大学
私はまだコースを受講していませんが、かなりきっちりとカリキュラムが組まれているようです。
授業内容は書籍が出版されているようで、PDF版は無料で見ることができます。良質の教材を惜しみなく無料提供するというStanford大学の太っ腹さには驚かされます。
http://www.mmds.org/
Khan Academy と CK-12
Courseraとは別に高校や大学教養学部レベルのものであれば、Khan AcademyとCK-12を覗いてみるのもよいでしょう。Courseraでは説明が不十分な基礎的な知識はこちらの二つのサイトの動画を見て学びました。
カーンアカデミー(Khan Academy)は講義の動画がYouTubeに載せてあります。
Khan Academyのprobability and statistics
CK-12はあまり有名ではありませんが、 高校レベルの講義資料や教科書を無料提供しており、高校レベルで教えてくれるのでとても助かります。
CK-12のFlexBookという教科書は、PDFやepubで読むことができ講義画像へのリンクもついています。
CK-12には他のレベルの統計学の教科書もあります。
書籍
著者は高校の先生なので非常に丁寧に説明してくれるので、多変量解析のことがよく分かるようになります。
過学習等、実際にデータ解析を行う際のノウハウが収録されている。
自然言語処理の入門書。Pythonでの自然言語処理方法を収録している。
勉強会
東京で開催されている統計プログラミング言語Rの勉強会です。
一人で勉強していると周りが見えなくなることもありますので、一緒に学ぶ人を見つけるのがよいでしょう。他にも多くの勉強会があるので、探してみましょう。
英語の教材が多くなってしまいました。統計学やデータサイエンスを学んでいくと、やはり欧米の科学教育に対する層の厚さをひしひしと感じます。英語という障壁はありますが、その障害を補っても余りある学習効果があると思いますので、是非英語の教材にも挑戦してみてください。
幻想的なブログ
ありがとう
…………………….
http://www.8ii.in
タイトルがわかりにくいのですが、このCore Data Analysisもオススメです。
普通のMOOCはビデオとスライドだけですが、カリキュラムがちゃんと構成されていて、「なぜこうなるのか?」がしっかり説明されています。前半は同じデータをつかってなるべく生徒を混乱させないようにしている所も好感が持てます。
教科書が用意されていて、普通に読んだら時間かかりそうな教科書を著者自身がわかりやすくビデオで解説しているので非常にわかりやすいです。
大学の分厚い教科書も著者がちゃんとビデオで説明したらこの授業のように生徒の理解度あがるのにと思いました。
因にMatlabをつかってますが、使うツールはRでもExcelでも紙とペンでも良い、というスタイルです(最終的な答の数値にたどり着けばOK)。
難点は、テストを作っているのが別の人なので、少しレクチャーと問題にギャップがありました。ただ、フォーラムを見る限りTAがかなり詳しく答えてくれるので分業制という事だと思います。
因にいまJohns Hopkinsのコースも取っていて、真ん中あたりですが、Brian Caffoは少しわかりづらいですね。「わかりづらくてごめん」的なメールが来ました。
リンクです
https://class.coursera.org/datan-001
コメントありがとうございます。
Core Data Analysis、私も取ろうと思ってましたが、なかなか取れませんでした。
https://class.coursera.org/datan-001
解析を1D, 2Dに分ける辺り、丁寧なカリキュラムのようです。
私の記事では、ちょうど伝統的な統計学部分が抜け落ちているので、このコースが0.辺りに入るかもしません。
受講してみて良かったら、私の記事をアップデートしていきたいと思います。