こんにちは。久々の投稿です。
僕のTwitterをフォローしてくれている方はご存知かと思いますが、4月から機械学習エンジニア/データサイエンティスト(見習い)として働く事が決まりました。
今日六本木の某社から正式に内定を頂きましたが、間違いなくTwitterのおかげでありTwitterこそ就活の全てであると確信した次第でございます
— マスタケ (@MATHETAKE) 2017年2月23日
良い区切りですので今回はタイトルの通り、ただの純粋数学の学生だった僕がデータサイエンスの勉強を始めまたどのように勉強してきたのか、についての思い出せる範囲で書こうと思います。
Disclaimer: この記事は基本的に、"What I did" に関する記事であって決して "What you should do" についての記事ではありません。そんな勉強方法おかしいとか、こうすべきだ、みたいなマサカリは一切受け付けませんのでご了承を。ただ、最後に数学科の後輩の皆様に向けてアドバイスと言うか心構えというかそんな感じの事を書いてます。そこはマサカリをTwitterでぶん投げて下さい、と言う感じです。
§1. データサイエンス・機械学習出会ったきっかけ
ちょうど一年ほど前、とある外資系企業から内定を頂き就職活動を終えました。元々純粋数学で博士号を取るつもりで勉強・研究していたのもあって修論の内容もこの時点でほぼ固まっており、かなり時間に余裕がありました。
そんな時ふと「一度くらい応用数学を勉強してみたい。」と言う衝動に駆られ、ミーハーな僕は数理ファイナンスの勉強をはじめました。するとこれがまたおもしろい。世の中にはこんな高度な数学が応用される世界があるのか、と。当時は確率や統計も数学科の学部の講義程度の知識しかなかったので、結構苦労しました、が、ドハマリしました。
最初に読んだ本は(記憶が正しければ)
- 作者: S.E.シュリーヴ,今井達也,河野祐一,田中久充
- 出版社/メーカー: 丸善出版
- 発売日: 2012/02/29
- メディア: 単行本
- クリック: 1回
- この商品を含むブログを見る
ファイナンスのための確率微分方程式―ブラック=ショールズ公式入門
- 作者: トーマスミコシュ,Thomas Mikosch,遠藤靖
- 出版社/メーカー: 東京電機大学出版局
- 発売日: 2000/03
- メディア: 単行本
- クリック: 6回
- この商品を含むブログ (2件) を見る
- 作者: B.エクセンダール
- 出版社/メーカー: 丸善出版
- 発売日: 2012/04/05
- メディア: 単行本(ソフトカバー)
- 購入: 1人 クリック: 2回
- この商品を含むブログ (1件) を見る
- 作者: 長井英生
- 出版社/メーカー: 共立出版
- 発売日: 1999/07/25
- メディア: 単行本
- クリック: 5回
- この商品を含むブログ (2件) を見る
Python for Finance: Analyze Big Financial Data
- 作者: Yves Hilpisch
- 出版社/メーカー: Oreilly & Associates Inc
- 発売日: 2014/12/27
- メディア: ペーパーバック
- この商品を含むブログを見る
- 作者: James Ma Weiming
- 出版社/メーカー: Packt Publishing
- 発売日: 2015/04/29
- メディア: ペーパーバック
- この商品を含むブログを見る
こんな感じでした。
そんなこんなで数ヶ月数理ファイナンス、特にデリバティヴの価格決定問題を勉強していくうちに一つの疑問が湧いてきました。
「原資産の確率過程のキャリブレーションや推定はどうやって行うのだろう?ここに精度がなければ価格決定の理論もクソもないのでは?」*1
ここで出会ったのが機械学習でした。
で、元々Pythonはある程度馴染みがあったこともあってどんどんハマっていき、今となっては数理ファイナンスには全く興味がないと言った感じです。笑
§2. どのように機械学習/データサイエンスを勉強していったのか
”機械学習”と言うワードを知った後、一番最初に勉強したのは神嶌 敏弘先生の
1. 機械学習の Python との出会い — 機械学習の Python との出会い
でした。Pythonに馴染みがあったのでとっつきやすかったです。その後
2. Neural Networks and Deep Learning
で初めて深層学習に出会い、そして初めて最適化数学(の初歩の初歩ですが純粋数学ではまず使わない内容)を知りました。*2
この頃のモチベーションはまだ数理ファイナンスであり、超絶ミーハーデータサイエンス芸人な僕は「株価のモデリングをしたい」と思っていました。そして出会ったのが
3. Deep Learning for Multivariate Financial Time Series
です。この論文(?)を読んでいく中で知ったのが(今は廃れてしまった?)制限付きボルツマンマシンによる貪欲学習で、次の2つの論文とノートを眺めながら3.をフルスクラッチで実装する事にしました*3:
4. An Introduction to Restricted Boltzmann Machines
5. LEARNING DEEP GENERATIVE MODELS
こうやって機械学習にハマっていくうちに、段々と数学徒ならではのお気持ち:
「Deep Learningも機械学習も数学テキトウすぎ……論文読んでてイライラする……」
に支配されていきました。それが次の論文リストにつながっています:
お陰さまで人よりちょっとは深層学習の理論に詳しくなりました。
また、深層学習だけではなく今流行の統計モデリング勢のアプローチも気になりだし、情報幾何学やベイズ統計の勉強をはじめました。その時読んだのは
- 作者: 渡辺澄夫
- 出版社/メーカー: コロナ社
- 発売日: 2012/03
- メディア: 単行本
- 購入: 1人 クリック: 4回
- この商品を含むブログ (5件) を見る
- 作者: Sumio Watanabe
- 出版社/メーカー: Cambridge University Press
- 発売日: 2009/08/13
- メディア: ハードカバー
- クリック: 8回
- この商品を含むブログ (2件) を見る
Methods of Information Geometry (Tanslations of Mathematical Monographs)
- 作者: Shun-Ichi Amari,Hiroshi Nagaoka,Daishi Harada
- 出版社/メーカー: Amer Mathematical Society
- 発売日: 2007/04/13
- メディア: ペーパーバック
- クリック: 2回
- この商品を含むブログ (1件) を見る
- 作者: 藤原彰夫
- 出版社/メーカー: 牧野書店
- 発売日: 2015/08
- メディア: 単行本
- この商品を含むブログを見る
別冊数理科学 情報幾何学の新展開 2014年 08月号 [雑誌]
- 出版社/メーカー: サイエンス社
- 発売日: 2014/08/22
- メディア: 雑誌
- この商品を含むブログを見る
こんな感じでした。
かなり短いですが、ざっとデータサイエンスや機械学習について勉強した流れはこんな感じです。
合間合間でテキトーにSVMに関する論文読んだり、漸近理論の勉強したりしていましたが、基本こんなもんです。
§3. 数学科の皆様へ
正直、真面目に純粋数学をやってきた皆さんにとって機械学習や統計モデリングを使う側に*4なるのはかなり楽勝です。根気と時間さえあれば。最初は知らない用語だらけ(僕は今でも知らない単語だらけ)ですが、数学的意味や背景を汲み取るスピードには自信があると思いますのですぐに最前線まで辿り着けるかと思われます。
ただ、こっちの世界に一歩踏み出す前に、
「数学的に厳密じゃない」と言う事に固執しない
と決心してください。こっちの世界で生きていくには数学的厳密さを求めいていたら無理です。不可能。
僕はもう慣れましたが、最初はかなり苦労しました。先ほどの論文リストを作ってしまうほどに固執していました。
数学的厳密さを追い求めるばかり、誰も引用しないような定理を証明する、そんな事になっては本末転倒です。*5
データ分析・機械学習モデルの構築の目的はあくまで応用であって、数学的正しさを証明する実験ではありません。もしこれが嫌であれば一生純粋数学をやっていてください。きっとビジネスの世界では生きていけないでしょう。(と言ってもまだ僕はひよっこですが。)
ただ、数学的厳密さを求める姿勢はもたなくても、数学徒特有の、数式を見て頭の中で捏ねくり回し別のアイデアを思いつく、あの感覚は間違いなく生きます。そして、その感覚は数学科出身でない人たちに対する武器になります。
その数学的センスを武器に、目の前の人の生活や人生に影響を与えるそんな仕事が目の前に、今はそんな時代です。
是非こっちの世界で一緒に頑張りましょう。
物理出身の機械学習マンは大勢いる一方で、数学系の人は少なく、正直悔しくてこんなくだらない文章を書いてしまいましたが、少しでも何か感じ取ってくれたら幸いです。
質問等ありましたら、可能な限りで答えますので Twitter↓まで御連絡ください。
あ、最後に一つだけ
Pythonは絶対に書けるようになってください。
まっっっっっっっったくまとまりのない文章になってしまいました。すみません。
ひよっこデータ芸人の戯言、失礼しました。