データサイエンティストを生業にする手段と実態について述べる。
途中、具体例・境界値の例として私個人の話もするが、なるべく一般性のある話をする。
この記事で言いたいことは具体的には4つだ。
- プログラミングスクールをディスるなら代わりの入門方法を提供しようよ。
- もう「未経験文系から3ヶ月でデータサイエンティストで一発逆転物語」を止めろ。*1
- おじさんは人生逆転したいなら真面目にやれ。
- 若者はワンチャンじゃなくて、ちゃんと化け物になれよ。
この記事についてはパブリック・ドメインとして転載・改変・リンク記載を自由にしてよいです。
(続き書いた)
- a. 入門は辛いが…
- b. 思考停止でプログラミングスクールに通うな。
- なろう系・始めてみよう系資料一覧 (最速・最短ルート用)
- 分野別の本と補足情報集
- c. インターンの話
- d. 就職の話
- e. 業界の話
- f. 仕事に就く方法
- g. データサイエンティストになったら
- 応援メッセージ
- 補足
a. 入門は辛いが…
私は20代後半の若手データサイエンティスト(DS)として、それなりにちゃんと仕事をしている。
しかし、通った大学はたいした所ではないし、専門もコンピューターサイエンス(CS)ではなくいわゆる「クソ文系」だった。
私はDSへの道をほぼ独学で歩んで来たが、一人でプログラミング、データサイエンスを学ぶのには困難を伴うというのもわかる。*2
先日、自社主催のIT勉強会に出た折り、中年のおじさんに「転職するためデータサイエンスを学びたいがPythonの動かし方がわからない」という質問を受けた。ググって出てきた記事を参考にして動かしてみて下さい、と答えた。
半年後にそのおじさんと顔を会わせたとき「Dockerというのを使うのが良い方法、という記事を見て私のWindowsのPCで記事をマネたが動かない」と相談をされた。
「『python.jp』を見て下さい」と最初に私が言っていれば、おじさんの半年は無駄ならずに済んだのかもしれない(?) あとクソ記事書いた奴は○ね。*3
かくいう私も最初はCygwin*4 のバグと対峙して入門までに2ヶ月無駄にした記憶がある。
VM*5が動かない程度に低スペPCだったのでWindows*6を消して対処した。今ならWSL*7があるし、パソコンも安い。
入門で躓かないためにプログラミングスクールに行くのが良いか、と言われば私の意見は「No」だ。特にデータサイエンス分野。
b. 思考停止でプログラミングスクールに通うな。
定年のジジイやヒキニートがプログラミングを趣味、ボケ防止、社会復帰に始めるなら接待も良いが、職業にする奴が通うには講師の質、コースもディス。
知人経由で大手スクールの講師(時給1500円)のデータサイエンス講座担当の採用試験問題を得たが問いの過半数は出題ミスだった。(何を言っているのかわからねーと思うがおれも何を言ってるのか全然わからなかった。*8 )
シラバスの内容はUdemy*9で2000円の初心者向け動画10時間分を薄めたものであり90万円と書いてあった。
OK。検証不能な難癖はここまでにしよう。
仮にn万円払ったところで、クソプログラマーに中途半端な解決法を教わるくらいなら無限にトライアンドエラーを繰り返した方がプログラミングは上達する。ここ最近、プログラミングスクール不要・必要論争をしてる連中を見た。
(代替厨っぽいが)本当に不要だと思うならスクールに行かなくても目的を達成出来る手段の紹介をするべきだ。*10 そこで私は下にDSになるための最速ルートとオススメ参考文献集をまとめておいた。
このリストを参照してる限り、データサイエンスの入門に関しては初心者はお金を払って人に相談しないと先に進めない、ということは起きない。高度な脇道*11への疑問が湧くことはあるかもだがクソ講師もそれに答えれない。それは良いプログラマー、数学者の友人を作るか、Stack Overflow*12やGitHub*13を見るしかない。
新しいことを始めるときに詰んでしまう、という人は難易度を下げて進める技術、検索技術を身につけよう。どうしても無理なら頼れるメンターを探そう。
下の資料を見てもわからない、メンターが居ないからスクールに入る!!というのなら、それは意義のある決断だ。良いスクールを見つけてほしい。(参考 : 「AI学ぶのは「今でしょ!」講座|マスク・ド・アナライズ|note」)
なろう系・始めてみよう系資料一覧 (最速・最短ルート用)
まずは動かしてみよう。強くてニューゲームが体験出来るぞ!
下のリンクをクリックするだけで、即座にAIを動かす準備は整う。
(GoogleによってAIのサンプルと動作環境が準備されている。)
- 「はじめてのニューラルネットワーク:分類問題の初歩 | TensorFlow Core」 : 目次
- 「PythonDataScienceHandbook 」(機械学習) : 目次
動かし方はココ(公式ドキュメント)を見ろ。「英語怖くてムリ!」「見慣れない画面怖い!」だったら「Python入門」を始めて徐々に慣れろ。
入門以前の本
会社・個人がデータサイエンスをする理由、その需要、その展望についてアカデミックな背景のある方、DS業界で地位のある方が書いた読み易そうな本を二種類に分けて載せた。noteやbooth、サロンのカリスマ(詐欺師)を崇拝する前にこれを読め。
ネット上のデータサイエンス挫折体験談、Tier 5就職成功談を眺めた感想として、難しい本を読み始める前に社会におけるAI活用の具体例が5個以上思い浮かばない人は業界本を、統計学と機械学習と深層学習の違い*14が全く区別つかない人は技術者入門本をしっかり読むのからスタートした方が良い(マジで)。
それくらいのAIリテラシーがないと「何が必要なのか」「何を学べば良いのか」「どこを目指せば良いのか」「データサイエンティストを目指す理由は何か」「データサイエンスを仕事に導入する必要はあるのか」の段階で間違える人が多い、というかそう成らざるを得ない。
リストの中でも上の方が簡単、下の方が込み入った内容になっている。
一般向け業界本 (AI業界と展望がわかる本)
- 作者:野村 直之
- 発売日: 2017/12/12
- メディア: 単行本
- 既読。現実の応用例が書いてある良書。セミナー通うよりこれ読んだ方が早いし良い。最新ではないが業界ノウハウを知るには普通に良い本。
技術者入門向け (AIの雰囲気、AIの正体などが書いてある。)
-
事例で学ぶ! あたらしいデータサイエンスの教科書 (AI & TECHNOLOGY)
- 作者:岩崎 学
- 発売日: 2019/12/17
- メディア: 単行本(ソフトカバー)
- 『見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑』
-
- 作者:知宏, 小高
- 発売日: 2019/09/26
- メディア: 単行本
- 『エンジニアなら知っておきたいAIのキホン 機械学習・統計学・アルゴリズムをやさしく解説』
- 『まずはこの一冊から 意味がわかる統計学』
-
参考リンク
私より下の記事の著者(マスクドアナライズ氏)の方が、一般向けの入門記事について考えて書いていると思うのでこちらの記事を参考にした方が良いかも知れません。(8月5日追記)
ちゃんとしてそうなYoutubeの動画
・私は殆ど見てませんが動画で最新の現場の声も聞くことが出来るようです。
- 【データサイエンティストに聞く!】AI人材 どうしたらなれるの?
- パネルディスカッション:データサイエンスの競技者、Kagglerたちが活躍する職場とは
- Data Science at Work | Peter Grindrod | TEDxNewcastle
(ついでに)安いノートPCの選び方
Dell ノートパソコン Inspiron 15 3593 ホワイト 21Q12W/Win10/15.6FHD/Core i5-1035G1/8GB/512GB SSD
- 発売日: 2020/05/16
- メディア: Personal Computers
- 充分コーディングに耐えうるDELLのパソコンが7万円*15で買える。*16
Python入門 (最速コース)
実務家を目指したり、知識を付けたいなら、多少のプログラミング技能は習得してあると便利だ。プログラミング言語の一例としてPythonを学ぶ手段を記した。
- 「PFNの教育的Python入門講座 on Colaboratory」
・最速入門コースはこれ。
・リンク踏んで5分後には入門完了出来るくらい最速。内容もちゃんとしてる。
・おめでとう、これをやれば君はPythonマスターだ。自信を持って良い。そして曖昧なおっさんになる前にドンドン先に進んでけ。
・この次は知の高速道路(動画教材)に進んだら良い。もちろん他のPFN講座を全部やっても良い。プログラミングで困ったときはドキュメントとstack overflowを読む癖をつけよう。他のPython入門系は躓いた時にやれば良いし、やらなくてもよい。 - Python3 Documentation
・公式ドキュメント(チュートリアルガイド編)。流し見で良い。
・チュートリアルだから、と気を張って真面目に読むと疲れて終わらない。
・後で困ったら後で解決しろ。インデックスは貼っとけ。Tips は2年後に読むと役立つ。 - Code Style — The Hitchhiker's Guide to Python
・文法を覚えた初心者が眺めるPythonの作法集。 - Effective Python
- 作者:Slatkin, Brett
- 発売日: 2019/11/25
- メディア: ペーパーバック
・中級者*17向けの3の発展版。もうすぐ邦訳本が出る。
・Python の邦訳本はこれまで読みにくいのが多かった上、英語だと本の選択肢が増えるし邦訳のタイムラグも無いので技術書は英語で読むのもオススメする。
・ 副読本として 『Practices of the Pro Python』 や 『Hands-On Software Engineering with Python』 が良い(特に前者、邦訳は両方ない。)
・『自走プログラマー ~Pythonの先輩が教えるプロジェクト開発のベストプラクティス120』という本もある。(未読) -
受講した知り合いが良い教材だった、と言っていた。目次見る限りPythonの機能を知るPythonツアーガイドとしてはよさそう。行きたいところが決まってるならツアーには参加しなくても良いと思いますが。
初心者向け動画講義まとめ
- 「【世界で18万人が受講】実践Pythonデータサイエンス | Udemy」
・ Python入門用で質と量と日本語が完備されている。3億倍速で眺めプログラミングの苦手意識を消し「何でも出来る」と勘違いしたらAndrew.ngへ - 「Machine Learning by Stanford University | Coursera」
・Andrew.ng*18 が機械学習とは何か教えてくれる。時間と体力はかなり必要だが黙ってこれやれ。
・これを見て最速レベルアップすることが本RTA*19における最重要ルート。*20 - 「eラーニング教材・講義動画配信 | 数理・データサイエンス教育強化拠点コンソーシアム」
・ データハンドリングなどの入門者講座は Udemy の方が良いが、応用的なこと(時系列解析・データ活用実践)を学ぶ上では、これより良い入門教材はない。
・多分、動画の[1,2,3]を理解していてコードが書けて、学歴があるならTier4 のインターン・バイトは受かる。 - 「DeepMind x UCL | Deep Learning Lecture Series 2020」 ・Deep Learning 講座。DeepMind社の世界のトップ達が入門者向けに自身の研究の話をする。
-
「DEEP LEARNING」(SPRING 2020, NYU, Yann LeCun & Alfredo Canziani)
www.youtube.com
・Pytorchを使いながら諸々のDeepを学ぶニューヨーク大学の講座。Andrew.ngくらいガッツリ本気の講義。
分野別の本と補足情報集
- ここには各分野の基本的な知識の習得に役立ちそうなものを書いた。複数上げられているのは自身に合うものを選ぶか併読すれば良いと思う。
- 補足に関しては補足だ。蛇足かも知れないがソフトスキルっぽいものが書いてある。
- 純粋なビジネス本や2年未満で使えなくなりそうなハウツー本は扱ってない。
-
本を買うか迷うなら買った方が良い(業界の常識)。私の既読本は全て良本だ。
1. データサイエンス入門本(14種類)
説明
- 「実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍(略) 渋谷駅前で働くデータサイエンティストのブログ」 を参考にしている。
・ 既に公開されている入門者向けリストとしてはこれが一番良い。TJO*21さんが「詳しくない」*22画像処理や自然言語処理、ファイナンス系は載っていない他、逆に医療統計、古典統計はプッシュされている。 - その上で特に読んだ方が良いもの、追記する必要のあった本、代替の本を手法・分野毎に下に載せた。*23
- 具体的には「概ねこの辺読んでれば学部2, 3年生のTier 2へのインターン出願、Tier 3転職のときに有利っしょ」という感覚で選んでいる。スタートとゴールの位置次第ではこのリストの本が最良ではないことも当然ある。
- 入門より専門的なことを知りたければ、大学の人工知能関連の研究室で学ぶか論文を読むなりTier 3以上の会社にインターンや転職をするのがよい。
-
このリスト本をしっかり読んでれば学生の上位5%以上くらいの知識はあると思うのでコーディング技術などをGitHubやkaggle*24でアピールすれば何処かに入社出来る可能性がある。
1. ビジネス分析系
戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック
- 作者:Foster Provost,Tom Fawcett
- 発売日: 2014/07/19
- メディア: 単行本(ソフトカバー)
- 実際のビジネスとデータサイエンスの関係・DSの仕事の進め方が書いてある。
- ビジネス分析入門系は他に 『データサイエンティスト養成読本 ビジネス活用編』、『仕事ではじめる機械学習』などが該当する。
- 「ブレインパッドにおける機械学習プロジェクトの進め方」は実務入門用メモとしてよかった。
- 一般向けの「データ活用の始め方」本として、大学生レベル向けの入門前準備の『武器としてのデータ活用術』がある。また、それより簡単な本として『定量分析の教科書―ビジネス数字力養成講座』がある。分析センスの無い人*25はこの辺りから始めれば良いスタートが出来ると思います。
問題解決ができる! 武器としてのデータ活用術 高校生・大学生・ビジネスパーソンのためのサバイバルスキル
- 作者:柏木 吉基
- 発売日: 2019/10/15
- メディア: 単行本(ソフトカバー)
- もっと細々した一般向けの本は「データアナリスト本」のところにある。ビジネスマンもそっちを見ろ。
2. データリテラシー
計量経済学の第一歩 -- 実証分析のススメ (有斐閣ストゥディア)
- 作者:田中 隆一
- 発売日: 2015/12/17
- メディア: 単行本(ソフトカバー)
- データリテラシーに効く薬。TJO推薦の医療統計本は専門知識が無いと処方されない。
- 無い奴多すぎ。難易度は高くないので(ビジネス分析本を読んだ後に)一般人も読め。
- 他は『サンプルサイズの決め方 』、『統計学のセンス』、『政策評価のための因果関係の見つけ方 ランダム化比較試験入門』などがある。
3. データ分析のSQL
- データ分析に携る上でSQL技能は必須、Pythonより需要は高い。
- SQLの基本文法は事前にググって学ぶ必要はあるが、実践的な分析用クエリの書き方はこの本で学べる。
- 動作環境構築が面倒なので、docker上にワンコマンドでセットアップが完了するdockernized版を勝手に作った。
- メンテしないのでデータの入力ミス、バグ、ドキュメントの必要があったらフォークして。出版社に怒られたら消す。
4. 機械学習入門
「Machine Learning Crash Course | Google Developers」,「scikit-learn Tutorials | documentation」
- まずは動かした方が良い。
- 日本語のガイドが欲しいなら
この本はPython入門レベルからガチ向けまで対応している。(エッセンス本の方は未読)
機械学習 100+ページ エッセンス impress top gearシリーズ
- 作者:Andriy Burkov,清水 美樹
- 発売日: 2019/12/20
- メディア: Kindle版
- データ量が必要な深層学習より応用の効く機械学習の方が社会において1000倍ニーズがある。
- 後発組は速習が目的なら機械学習って道具に詳しくなるよか応用・分析ドメインに詳しくなる方が戦略として良い。言ってる意味わかるよな? NLP*26や画像処理*27、売上予測とかの応用例・実務に詳しくなれ、ってことだ。動画見て一万本ノックとかもやって「コード書ける」って嘘付いてインターンで経験積め。
- 他の機械学習自体の入門本は『ITエンジニアのための機械学習理論入門』(未読)、『作ってわかる! アンサンブル学習アルゴリズム入門』(未読)、
『見て試してわかる機械学習アルゴリズムのn仕組み 機械学習図鑑』(未読)、『統計的学習の基礎 ―データマイニング・推論・予測―』などがある。不安なら読んどけ。
5. 機械学習副読本
- 実際に機械学習を活用する上で困るならこの辺の本を読め。
- Kaggleに限らず重要な知見がまとまっている。勿論他でも学べるが要点が短くまとまって詰まっているのはこの本だけ。*28
- 他に『機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践』や 足りなければ入門以前の本や「アナリスト本」も買え。
6. 統計学入門
- この本は統計わからないなら皆やれば良い。
- 統計わかってる奴、統計わかってない奴の差はデカいし即バレる。
- この後に読むと良さそうな本として、『Rで学ぶ確率統計学一変量統計編』、『Rで学ぶ確率統計学 多変量統計編』がある。(TJOブログで知った。良い本)
- 「Rってどう使うのが良いの?」「Jupyter Notebook以外わからない!」って人は『RユーザのためのRStudio[実践]入門』を併読すると良い。
- どうしてもRも数学も触りたくないなら『大学4年間の統計学が10時間でざっと学べる』は良い本だった。
- 作者:倉田 博史
- 発売日: 2017/07/28
- メディア: 単行本
- 数学使う統計本は数学書の所に書いてある。あれらは全部良い本。
7. 深層学習入門
「Welcome to PyTorch Tutorials documentation」
- Deep Learning編。Tensorflowのチュートリアルは上の方にリンクがある。
- これも機械学習と同じく動かしてAIの無能さを体感した方が良い。
- 『ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装』、『ゼロから作るDeep Learning ❸ ―フレームワーク編』などが人気だ。(私は未読ですが二巻の評判が周りでは高い。)
ゼロから作るDeep Learning ❷ ―自然言語処理編
- 作者:斎藤 康毅
- 発売日: 2018/07/21
- メディア: 単行本(ソフトカバー)
- コーディング無しなら『機械学習スタートアップシリーズ これならわかる深層学習入門』(未読)がある。
-
トレンド理解、各手法の問題意識を理解するために、ここ数年の発展経緯は知っておくべきだが「2年前の最新情報」は無価値な分野なので良書は少ない。
- 最先端に近くて良い教材は論文、GitHub、海外大の最新講義と大学院の先輩。
- えっG検定?ディープラーニング協会認定資格?何それ?Deepの実務に役立つはずないじゃん。舐めてんの?
8. ベイズ入門
機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)
- 作者:須山 敦志
- 発売日: 2017/10/21
- メディア: 単行本(ソフトカバー)
- ベイズだからどうのこうの、という訳でもない気がするが一応、独立した手法として扱う。ググると出てくる渡辺研究室のスライド、講義PDFに書いてあることが概ね全てだが、本のリストも用意した。
- 読み物として岩波の『ベイズモデリングの世界』 がある。
- 時系列分析への応用手法が書いてある入門本として『基礎からわかる時系列分析 ―Rで実践するカルマンフィルタ・MCMC・粒子フィルター 』がある。
- TJO氏とモロ被りなことしか言ってないが、統計モデリング実装入門として下の本がある。
9. 強化学習
- 強化学習については動かすのにお金が必要だし、難しいので入門用にはお勧めしない。ちゃんとやるならプロフェッショナルシリーズの『理論は裏切らない』(未読)がある。
- SlideShare に近年の動向の説明がある。
10. 因果推論
つくりながら学ぶ! Pythonによる因果分析 ~因果推論・因果探索の実践入門 (Compass Data Science)
- 作者:小川雄太郎
- 発売日: 2020/06/30
- メディア: 単行本(ソフトカバー)
- この二冊やればA/Bテスト、マーケティングの実務に対応出来る。
-
もう少しちゃんとやるなら『入門 統計的因果推論(Pearl)』や『構造的因果モデルの基礎』、『因果性(ダグラス )』などが入門に良い。
11. 数理最適化・Operations Research
- 最適化、OR部門については他に『意思決定のための数理モデル入門』 や 『錐最適化・整数最適化・ネットワークモデルの組合せによる最適化問題入門 (データサイエンス入門シリーズ) 』(未読)などがある。
- この分野は土木、CSでちゃんとやってる人が強い。
12. 金融分析
- ファイナンスに全編ノータッチになるのが嫌なので一応加えておく。
- 私はまだ読んでないが『Advances in Financial Machine Learning』が最近出た。*29
13. 人工知能の倫理と法
読んでもデータサイエンティスト協会の必要スキルリストは埋まらないが、私が言及しなかった所為で何処か誰かが痛い目をみる事態が発生したってなると目覚めが悪いので記載する。
- 「人工知能の倫理の現在:—研究開発における技術哲学・倫理の意義—」(2018)
- 人工知能に関するガイドライン集と倫理的問題の論点がまとめられている。 -
「機械学習と公平性に関する声明 | 人工知能学会 倫理委員会」& 「機械学習と公平性」(スライド,2020)
- リファレンスまで読んだら良いと思います。 - 「カメラ画像利活用ガイドブックver2.0」を策定しました(METI/経済産業省)
-
「センシングサイネージガイドライン | 一般社団法人デジタルサイネージコンソーシアム」
- カメラ、センサーの利用に関するガイドライン。 -
「プライバシーバイデザイン - Wikipedia」
- プライバシー保護の原則。 -
「AIに関する法的論点と弁護士実務への影響 | 東京弁護士会」
- AIの法整備について広く要点整理がされている。 -
「AI/IoT時代のプライバシー・個人情報保護の新課題」
- データ保護に関する国際議題のまとめ -
「リクナビ「内定辞退率」データ提供の法的論点まとめと、プロファイリングの法的問題について | STORIA法律事務所」」
-
「リクナビ問題「同意があれば万能」論を見直すべき…鈴木正朝教授が「思考停止の議論」に危機感 - 弁護士ドットコム」
- 大手就活情報サイト「リクナビ」の販売したサービスの問題点について議論されている。 - 「リクナビDMPフォロー」サービス利用企業へも指導(個人情報保護委員会) | ScanNetSecurity
- 加担した国内大手企業の多くは行政指導を受けた後も反省してないか、問題を理解してないままだったことがわかる。本丸のリクルートは『学生視点が欠如していた』と結論付けている。
14. 万人向けではない資料
- 『詳解 確率ロボティクス Pythonによる基礎アルゴリズムの実装』
- 強い研究室には配属された新入りを短期間で鍛える歴史と手間をかけ最適化された極地的学習ノウハウがある。この本はそれ。不確実性を含んだセンサー値を扱う確率ロボティクス版ノック本。具体的な問題を解くノウハウが書かれており解説が詳しい。 -
『つくりながら学ぶ! PyTorchによる発展ディープラーニング』
- 公式ドキュメントを読み込み、実装を見て論文読んで入門するのがスジだが、私は新しいフレームワークを学ぶためだけにガッツリ学習コストと精神ポイントを使うのが嫌だったので楽をしようと和書の解説本を頼った。楽ばっかしては駄目だと思うが楽は出来た。ノウハウ系の和書を読む前に一考はした方が良い。APIの変更、次の技術革新までの寿命が短い本なので紹介すべきではなかったかもしれない。 - 『理工系のためのよい文章の書き方』(8月19日 追記)
他ではこういった本は紹介しないことにしているので例外としてここで紹介する。
理工系と書いてあるので大学生向けのようにも思えるが、事例やテクニックは企業のデータ分析担当者がそのまま活用出来るものになっている。
専門のトレーニングを受けたことがない人には必読本なのではないでしょうか。
- 『Scratchではじめる機械学習』
- (未読) 確かにAIを始めるのが目的の場合、わざわざ難しいPythonの勉強に時間かける必要もないのでビジュアルプログラミング(Scratch)で充分ですよね。内容もちゃんとしてそう。
- 念のために言うと、機械学習のアルゴリズムを「ゼロから実装」(スクラッチ)する本ではない。 -
『Pythonプログラミングパーフェクトマスター』・『これ以上やさしく説明できない! Pythonはじめの一歩』
- マジで才能のない人がいることを想起して『独習プログラマー』以外の入門書籍に目を通した。確かにこれらを読めばPython入門は出来るだろうし、いい加減な情報や公式ドキュメントよりずっと親切だが、パソコン初心者が500ページの辞書みたいな本を全部写経*30して全部に目を通すのにどんだけの時間がかかるのだろうか?こういう親切な本が日本語で存在することは良いことだと思うが、毎日コツコツ真面目に続けて半年で読み終えれたとしても半年かかって初めの一歩が終わるだけだ。プログラミングで金稼ぎたい奴は何年プランでやってんの?アルファベット覚えんのに半年かかる奴が英語で仕事出来るようになるまで何年かかると思ってんの?
- プログラミングが出来なくても、エクセルとデータリテラシーがあればデータ活用は始められる。そういうスタートがあっても良いのではないだろうか。(20/8/8 追記) -
- AIを学ぶ時間が1時間しかない、っていうか本なんて一時間以上読めないって人。30分後のプレゼン、会議用に知識を付ける必要がある人が読むにはかなり良さそうな本。
- 事例も豊富かつシンプルにまとまっていて短時間でAIを完全理解した気になれる上、暗記用用語集を使うことで専門家の発言やAI関連のニュース記事も頭に入るようになるスゴい『付け焼刃本』。
- ただ、この本を読んだ後に本格的にAIを学ぶ・専門家と共同作業をするときが来たら、この本で身に付けた単純化された知識は更なる学習の足枷・業務中のディスコミュニケーションの原因になりうるのでそこは注意した方が良い。- 作者:竜司, 野口
- 発売日: 2019/12/20
- メディア: 単行本
2. データ分析関連100本ノック (3兆本やれ)
- 「言語処理100本ノック2020 (Rev 1) - NLP100 2020」
・ 余裕で出来る課題は飛ばすと早く終わる。必須ではないが自然言語処理する上でこれが解けないなら作業は止まる。 - 「画像処理100本ノック」
・(未読) OpenCVはUdemyの講座、オライリー、公式ドキュメントで学んだ。研究室に入る以外のハイウェイがあるなら私も知りたい。
・ 場合によってはopenCVはPythonではなくC++から叩く方がよい。 - 「データサイエンス100本ノック(構造化データ加工編)」
・SQLの入門には良いかもしれないが、文法がわかるならSQL本を動かす方が良い。
・ 試す上での懸念点としてはDockerの環境構築の難易度が高い上に「何もしてないのに壊れた!」が発生する可能性がある。*31 - 『Python実践データ分析100本ノック』
・これが出版される以前に私は実践経験は充分積めたので読んでない。(マウント)
・実践練習するよりインターン・バイトした方が良くない? - 『統計的機械学習の数理100問 with Python』 (本)
・刊行は続いていくらしい。あまり親切な内容ではない。
3. 算数なにもわからない人向け
チャート式シリーズ 大学教養 微分積分 (チャート式・シリーズ)
- 発売日: 2019/11/29
- メディア: 単行本
チャート式シリーズ 大学教養 線形代数 (チャート式・シリーズ)
- 発売日: 2020/04/17
- メディア: 単行本(ソフトカバー)
数式読めなくて専門書読めない人用。
- マセマよりもレイアウト、問題と解説の量がよい。独学者はこの本やる他ない。
- 別売の対応教科書はレイアウトが読みづらく数学科の教科書があれば私には不要だった。必要性は薄いので教科書無しでも一先ずトライして見るのが良いのではないでしょうか。
- 数Ⅲ・数Cやってなくても、気合があるなら読める(新手のマスハラ*32 ) 実際、気合いは誰が読むにも必要な内容量になっている。
- レベルアップには『統計学』(久保川)や『計量経済学のための数学』、『多変量解析入門』(小西)、 『現代数理統計学の基礎』、『機械学習のための確率と統計』、『工学系の関数解析』、『統計的学習理論』(金森)、『情報幾何学の基礎 』を読めば良い(左の方が簡単)
- 作者:田中 久稔
- 発売日: 2019/08/23
- メディア: 単行本
- 作者:達也, 久保川
- 発売日: 2017/04/07
- メディア: 単行本
- 色々議論があった上でこういう記事もある(参考まで)
-
高校数学すら全然わからねぇ、って人はこちらからやり直しするのが良い。
4.「データアナリスト」の本
何をチョイスしたらよいか、よくわからなかったので曖昧に既読本から良かった本、分析に関連する本を載せた。
意識高そうで死ぬ。
- 『データ分析プロジェクトの手引 データの前処理から予測モデルの運用までを俯瞰する20章』
- 『ビジネスデータサイエンスの教科書』
-
アクセンチュアのプロフェッショナルが教えるデータ・アナリティクス実践講座
- 作者:アクセンチュアアナリティクス
- 発売日: 2016/06/10
- メディア: Kindle版
- 『意思決定のための「分析の技術」』
- 『確率思考の戦略論 USJでも実証された数学マーケティングの力』
- 『ワークマンは 商品を変えずに売り方を変えただけで なぜ2倍売れたのか』
- 『CIA極秘分析マニュアル「HEAD」 武器としてのインテリジェンス』
- 『THE CULTURE CODE 最強チームをつくる方法』
-
- 作者:コール・ヌッスバウマー・ナフリック
- 発売日: 2017/02/16
- メディア: 単行本
-
- 作者:バーバラ ミント
- 発売日: 1999/03/01
- メディア: 単行本
-
『Fundamentals of Data Visualization: A Primer on Making Informative and Compelling Figures』
- 『データビジュアライゼーションの教科書』
- 『データ視覚化のデザイン』(未読)
5.プログラミング教本(13種類)
・ 私はプログラマー(PG)としては才能の無い3流以下ですが、参考までに読んで良かった本のタイトル、言語と対象レベルと雑感を載せる。
・ DSとして充分に強いなら不要かも知れませんが、実務の中でPGとしての素養は要る。マネジメント、開発手法・インフラ、ドキュメンテーション、プレゼン技術も実際は必要だがここでは言及しない。
- プログラミング入門
・ Python, 入門者向け, どうやってプログラミングを進めていけば良いか、という様なことが書いてある本。私には不要だったが、良い本だと思う。
・ Linuxがわからなければ、Googleで「Site:ac.jp bash入門」などで検索して大学の講義資料を探しても良い。本でやりたかったら、『新Linux/UNIX入門 第3版』が入門向けになっている。 - Git入門
・Git, 初心者向け, Git*33を概念から説明してる資料
・時間が無いなら「【Git入門】サルでも分かるGit入門の前に!Git使い方高速入門編【入門は5分で十分だと思います】」で使い方はわかる。
・「GitHubで共同開発のためのチュートリアル - Qiita」をみれば共同作業のやり方がわかる。
・ちゃんとやるなら「Pro Git (日本語版)」や「逆引きGit」がある。 - かっちりしたプログラミング入門
【電子合本版】Code Complete 第2版 完全なプログラミングを目指して
- 作者:Steve McConnell
- 発売日: 2016/04/14
- メディア: Kindle版
・古いC++, 初心者 *34 から中級者*35まで。章を切りとって容易にした代替本はあるが多分これが原典。総合的に色々書いてある。体力が必要。
・古い書き方がどうしても無理な人向けに類書を上げるなら『江添亮のC++入門』(GitHub)がある。『Code Complete』とは目的が異なるため到達点も異なっている。そしてクセがめちゃくちゃ強い。 -
リファクタリングの技術
- 作者:MartinFowler
- 発売日: 2019/12/06
- メディア: Kindle版
・コードを綺麗に保つ、問題を適切な単位に切り分ける技術の話をしている。
・私は暇なときにPythonに書き直したが、定期的に眺めたり辞書に使うのに適している。 - リーダブルコード
リーダブルコード ―より良いコードを書くためのシンプルで実践的なテクニック (Theory in practice)
- 作者:Dustin Boswell,Trevor Foucher
- 発売日: 2012/06/23
- メディア: 単行本(ソフトカバー)
・C++・Python・JavaScript・Java (言語関係ない), 中級者以上向け。
・Effective Pythonの補足になる。
・『Clean Code アジャイルソフトウェア達人の技』(未読)などもある。 - デザインパターン
・C++, デザインパターン(コードの設計パターン集)が学べる。
・GitHubでデザインパターン練習コード集を集めて眺めるのが一番楽な気もする。 - ドメイン駆動開発
- ソフトウェアテスト
・Java, 中級者以上, テストをしながら開発を進める方法・技術が学べる。
- アルゴリズム
・C++, 中級者以上, 通称「蟻本」。
・アルゴリズムを王道で学ぶなら『The Algorithm Design Manual』(未読)や『The Art of Computer Programming(日本語版)一巻』、『2巻』、『3巻』を読むのが良いではないでしょうか(未読)。権利関係どうなってるのかは知りませんが、ググると英語版のpdfが出てくる。
・蟻本より簡単なものとして『新・明解Pythonで学ぶアルゴリズムとデータ構造』(未読)、『Pythonではじめるアルゴリズム入門 伝統的なアルゴリズムで学ぶ定石と計算量』(未読)、『プログラミングコンテスト攻略のためのアルゴリズムとデータ構造』がある。
面接対策として『世界で闘うプログラミング力を鍛える本 コーディング面接189問とその解法』がある。 - コンピューターサイエンス
- 作者:デイビッド・A・パターソン
- 発売日: 2016/10/26
- メディア: Kindle版
・演習問題付きで時間があれば誰でも読めるCSの教科書。通称「パタヘネ」
・ちゃんとCS勉強する人は更に高度な本を読むと良いのではないでしょうか (私はやりませんが)。
・敷居が低いものとして『みんなのコンピュータサイエンス』や、『教養としてのコンピューターサイエンス講義』(未読)、『入門 コンピュータ科学 ITを支える技術と理論の基礎知識 』(未読)がある。
・歴史トレンド読み物として『角川インターネット講座 』や『魔法の世紀』がある。
・具体的な解説本として『オブジェクト指向でなぜつくるのか』と『プログラムはなぜ動くのか 第2版』も読んだがこの辺りはDSが必要に駆られて読む本ではない。 - データベース
- セキュリティ入門
・PHP, PHPが書ければ読める。体系的なセキュリティ入門本。
・勉強して試験を受けると資格にもなる。(ウェブ・セキュリティ基礎試験(徳丸基礎試験)) - ソフトウェア工学
・『ソフトウェア科学基礎』、『ソフトウェア要求 第3版』も読んだ。
・資格を持ってる訳でも専門家でもないので人に自信を持っては勧められないが、この辺の知識もあると便利だった。
6. IT勉強会
- リクルートやセルフブランディングなどの様々な思惑が絡み合う中、IT勉強会という謎文化が近年存在している。(参考:「IT勉強会 - Wikipedia」)
- その中には互助会のような親切な会もあるが、個人や怪しい会社が「学生対象!」「未経験歓迎!!」「すぐに稼げる 参加費5万円!!!」とかやっているのには近づいてはいけない。
- あと軽々しく「勉強会」って一括りに言うけど、ワナビー向けからガチ勢限定、就活面接、マウンティング会場、お誕生日会*36などが混在しており、何もわからないまま粗相や不適切なムーブ(特にハラスメント)をしてしまうと最悪の場合、界隈・業界からBan*37されるまであるので、参加するなら規約や文化をよく調べてから参加した方が良い。
-
規約の例
- 「Code of Conduct - FOSS4G Hokkaido」
- 「Code of Conduct(行動規範) | Ubuntu Japanese Team」
- 「code-of-conduct | ruby-jp」
7. プログラマ脳を鍛えろ
良いメンターや友人に質問しろ、と言ったが非エンジニアはパブリックなところでコーディングの質問はしない方がよい。
「適切な質問」をするには技術が必要で、それが出来てPGとして半人前だ。*38
質問のガイドライン
- 「良い質問をするには? - ヘルプ センター - スタック・オーバーフロー」
- 「Asking Better Questions - Stack Overflow Blog」
- 「Stack Overflowの使い方 - Qiita」
- 「質問をする技術 - くりにっき」
適切な質問には検索力が必要だ。
エラーメッセージを読む技能も重要だ
知財保護・ライセンス・ネットマナー・ハッカー文化に対する理解も必須だ。
- 「著作物が自由に使える場合 | 文化庁」
- 「ライセンスと著作権について | murashun.jp 」
- 「OSS ライセンスについて – cybozu developer network」
- 「ネチケットガイドライン」(RFC1855の邦訳、ちょっと古い)
- 「良い記事を書くためのガイドライン - Qiita:Support」
- 「How To Become A Hacker: Japanese」
- 「伽藍とバザール」
上のリンク先の内容が正しく理解できていればプログラミングコミュニティのSlackにある質問チャンネルに問題を投稿しても問題はないだろう。
最終的には失敗を繰り返して習得することになる。
8. 他の人が書いた入門記事、本のリストとの比較(追記)
- ちゃんとした人がちゃんと書いた入門コース紹介として、中川さんの書いた記事があった。段階的なレベルアップを推奨するこのルートはそれ自体として挫折しにくい良いガイドになっている。しかし個人的な感想として文化資本で高速道路を疾走する人達と競争し生き残る目的で参考にするには一般道過ぎるように感じる。
- だみ~氏のブログも本を紹介している。国内のDS村の住民は、みんな同じ本を読みがちだ。(逆に謎な本をありがたがる村外の住民は情報の取捨選択能力、鑑識眼が無いのでヤバい。)
この記事ではだみ~氏のちゃんとした選書理由とともに、ちゃんとした本を読んだ感想がちゃんと紹介されている。*39
私の記事より解説は丁寧だが難易度がバラバラなのと、あくまで過去の読書記録なので他人がいま真似するには内容のアップデート版に類する本、代替学習手段のある本が多い。*40
- くにさんという方が『お世話になった本リスト』を出していた。(8月19日追記)
掲載されているリストの内容はだいたいこのブログ記事と被る or 諸事情*41からこのリストから省いた本 + Cookbook系の本になっている。
『数理統計学: 統計的推論の基礎(黒木, 2020)』は知らなかったので私も買った。 -
karaageさんが『ディープラーニング・機械学習の初心者向けオススメ書籍』を書いていた。(8月19日追記)
私は先端的なところは英語の情報を読むし、そうでないところもかっちりした専門書を読もうとするので、個人的には参考にならなかったが、私のような選択肢を取りたくない人、初心者にはオススメのルート紹介になっているのだろう。
本を全然読まず、手も動かさず、専門性も実績も無いのにオススメ本リストとか出してる人*42も沢山いるが、それに比べればこれは信頼に足る情報だろう。 - 他にはプログラミングスクールが出している「【2020年版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法」がある。内容は中川さんの記事とこの記事を足して5で割ったところにスクールが重んじている用語暗記や小手先テクニック集を足したような内容だった。Tier 4 入社を目指すならコチラの方が正解なのかもしれない。
- 他にもググると出て来るが言及しない方が良い記事ばかりなので言及しない。
c. インターンの話
こんな感じで入門コストは暴落しバブル崩壊前夜の今、DSのキャリアに入る難易度は未だ最高値を更新し続けている。
それが一体どういうことなのか未経験文系とかには具体的に説明しないとわからない気がするので5年くらい前に私がインターンに潜り込んだ話をする。*43
「私は確率統計や数学、科学哲学、ビジネスの知識・素養がめちゃくちゃあり実分析に応用した例もあります。またプログラミングで実現出来る革新的でお金になりそうなアイデアを見つけ、それを現実的な難易度に落とし込み短期間で実装しました。ビジネス・エンジニアリング・データサイエンス、どれもイケてる成長株です。GitHubはこれです」
そんな感じの自己アピールをした。その結果、プログラミング入門から半年後には、有名データサイエンスチーム (Tier 2) のインターン選考を運良く(面白・ビックリ人間枠として)突破し、そこでなんとか結果を出し実績を積むことが出来た。客観的にはこのインターンに受かったのがターニングポイントに見えるだろう。運とはいえ私にとっては打算的に動いた結果だ。
プログラミング入門から3ヶ月はコードを書くのが楽しくて、質の低いWebサイトを作ったり、しょうもない画像認識、IoT遊びや競技プログラミングごっこなど目に付いたオモチャを順番に試し学生の時間を無為に過ごした。しかし小遣い稼ぎに申し込んだデータ分析インターン(Tier 4)の選考ではオモチャ遊びは全く評価されず、その辺の雑魚未満とされ落選した。実際ゴミだったと思う。
傷心で寝込みながら自らの立ち位置と比較優位を自覚し戦略を練った。その結果、そこから3ヶ月で目標は達成できた。(『データサイエンティストは3ヶ月で成れる!!』じゃん)
当時でも他のインターンは実績で人を殴れるガチ勢ばかりだった。ガチ勢というのは高校の部活でプログラミングを習い始め、有名大に留学経験があり、コンピューターサイエンスや関連分野の有名研究室で優れた業績を持ってますが何か?みたいな奴らのことだ。
若くして優秀みたいな話は大概、先天的文化資本チート野郎であり、
個人の能力 = (1 + 才能)× (1 + 希少性)× [文化資本] × (1 + 努力 × 効率 + 勢い + 運)
だと思った。左側のパラメーターの方が重要度は高い。
この世界では先天的な文化資本はあればあるだけ強く、都内に自宅があり幼稚園の頃に親から500万円分の教育機会をプレゼントされる御家庭に生まれてやっと中流スタートが出来る。若い内に能力があると認められればCERNやベイエリアで効率を上げたパワーアップも可能だ。そして「清く正しく毎日生きてきただけなのにトップスクールPh.Dナウ♪」とかSNSで呟いていられる。
強い学生界隈には他に必要な努力を必要なだけ即するやつ、天才っぽいのや世渡りの巧さで実力を付けた奴とかが居た。高専出身の強い学生ルートというのもあるが、あの背後には強く成れなず踏み出いになった屍の山がある気がする。
つまり凡人、後発は挫折だ、不向きだ、様子見だ、とか言ってる暇ねぇから。やるならやれよ。各々の現在地から最短コースを最速で走って少しでも距離詰めてなんとか成り上がる or out だから。そんで上の資料集が最新版『地球の歩き方 ザコ編』になっている。目的地は自分で決めろ。*44
d. 就職の話
就職の話もついでにする。
私が見積った就職・転職の際の市場評価関数は
市場評価 = 個人の能力 × 需要 × [経歴・見込み実績・伸び代] × (自己アピール + [性格・社風マッチ・学歴フィルター]) だった。
転職回数、宴会芸、外見、性別などが加わる所もある。雑魚スタートアップでも40のおっさんプログラマーは企業文化に合わないとして落とされている。
私は上位層との市場評価の差を少しでも埋める必要があったためインターンの経歴の他にも学内外の賞で経歴を埋めた。賞は稼ぐことを意識・執着し、かつトップ層のやり口を知っていれば労せず誰でも稼げると思った。なので時間も趣味コーディング、趣味の論文読み、分析のバイトにばかり費やしていた。
Kaggleの公開データセットではよく遊んでいた。しかし競技の方は自身には比較優位のある感じがせず、参加し続ければ意欲は証明出来るのかもしれないが、業務が出来るアピールには結びつけられる気がしなかったので私はやらなかった。
そんなこんなで就活ではそれまで縁のあったTier2からTier4の会社から声がかかった。大学に残りたかったが親の強い反対と金銭の都合で諦めた。Tier 1,2で活躍したいなら進学して結果を残す必要がある。(例外は少ない)
勉強時間が圧倒的に足りてないのにCSトップ層とハードワークで渡り合っても辛い。社内で比較優位性を持てること、興味湧く業務が良い。ということで私はTier 3の会社に入社を決めた。
自分語りし過ぎだろ、と思われるかもしれないが自分のような「ラッキーケース」でしか一流未満大卒、無能、文化資本無し男による皆さんが望む「未経験文系からデータサイエンティストで人生一発逆転エンターテインメント!! 倍返しだ!」は存在しないし、ほぼ無理だと思う。 *45
e. 業界の話
みんなデータサイエンティストに成れるとして業界の話をする。
データサイエンス部署の仕事・求人を以下のように分けて考えるとよい。
- Tier 1 業務内容が研究業務。世界規模のデータを扱う。
- Tier 2 業務の一部として最先端の研究・実装をする。国内最大規模のデータを扱う。
- Tier 3 最先端ではないが、先行研究を素早く理解・実装する。国内大手企業のデータを扱う。
- Tier 4 sklearnやTensorflowのAPIを叩く。有名企業のデータ分析をする。
- Tier 5 Pythonにチャレンジ。Google Analyticsを活用する。
他に会社の事業種(事業会社・受託会社・コンサル会社)、業績動向・ビジネスモデル、企業規模、担当する業務・求められているのは何か、どのような人が居るか、活躍・成長出来るか、自分とマッチしてるか、という会社毎の調査もした。ただ業界通のベテランに近づき聞いた評判や内部情報、優良企業情報が一番役立ち正確だった。
2010年代中盤、DSバブル初期中期には「研究開発タイプ・アナリスト(ビジネス)タイプ・エンジニアタイプの3つから自分の好きな職種を選ぼう」とオーキド博士の言いそうな世迷い言が流布したが、バブル後は自称ビジネス系DS、半端者エンジニアから配置転換、レイオフされる(された)。
Tierの話に戻ろう。
Tier毎の業務には壁がある。例えばTier 2の会社の研究部署にインターンから入社した人柄が売りの友人は周囲のサポートで猛成長し国際学会の舞台で発表していたとき、私は極東で分析的雪かき業をし続けていた。
またTierの違いはキャリアの違いでもある。Tier 1は常にトップランナーとしてキャリアを歩むことが出来、選択肢も多いように見える。そして交通事故で死ぬ。
Tier 2はビジネス状況・案件状況、研究職と非研究職の配属の差によるキャリアの差が若干ある。担当業務と興味があってれば生涯それで良いと思う。技術トレンドを大きく読み違えると死ぬ。
Tier 3は能力では優秀な後発にドンドン抜かれていくのでビジネス寄り、エンジニア寄りの強いアウトプット・経験を貯めてかないと景気悪化で死ぬ。
Tier 4はDSとしての専門性はその辺の学生以下なのでビジネス技能、エンジニアリング技能との組み合せでデータサイエンス能力を発揮する必要がある。データサイエンス技能だけなら給料は並以下であり、景気悪化で無条件に死ぬ。
Tier 5は一人月や営業職兼任として存在する。勉強してキャリアアップするか、データサイエンティストになるための情報商材販売やスクール講師などの副業をする必要がある。Google検索アルゴリズムの変更とかで死ぬ。
ワナビー達は今一度、憧れの『DS版 逆転人生』はどこの世界の物語だったのか思い返してほしい。
f. 仕事に就く方法
現実的な話をしたところでもう一度データサイエンス関連業務に就く方法の話をする。戦略の必要性や仕事のイメージが具体的に湧かなければ「業界本」やYouTube動画を参照しろ。
データエンジニア職
『iPhoneアプリとサイトQAにAIを搭載したいのでAWS資格を持つTier4レベルのDSを募集します。AI、バックエンド、インフラ全部お願いします』
『東大発イケてるスタートアップです。Tier 2クラスの強い院生求む!!』
最近はこんな感じの公開求人をよく目にする。*46
後者のようなスタートアップ求人は採用人数が少ないのでマス向けには忘れるとして、前者の需要は行動するワナビーやプログラマーからの転職を消化しきれる程度にはあり、それなりに高給だ。
実際に目指すならGreenなどのエンジニア求人サイトを見て応募可能な求人があるか、スキル不足ならどう満たすかの戦略を練るべきだろう。また一般的な要件の参考としてTJO氏が「実務の現場で求められるスキル要件」を書いている。
こうした「データエンジニア(DE)」枠*47としてTier4などでデータ分析業務に携るための競争はDSの道に比べれば緩い。AWS*48の資格を取るだけなら独学でも2週間から半年あれば達成できる。とはいえ適性が無いければ辛い道程にはなる。
データエンジニア転職向け参考リンク
データサイエンティストに転職
・「関連学位の大学院卒、または旧帝大・私学上位並の学部卒などの学歴と数理科目、CS関係をちゃんと学んだ経験があります」のルート。あるいは「私には特殊能力・実績・業務に役立つドメイン知識のいずれかがあります」って自信持って言える感じじゃないとTier 2以上の「ちゃんとしたDS」に転身するのは現実的ではない。仮に入社できても他のDSと科学技術コミュニケーションが行えず仕事にならないだろう。
しかし社会的、現実的な需要からTier 3, Tier 4の(実質アナリスト、またはDEポジション兼任の)DS職への転職求人は結構ある。*49 これは「ビジネススキルと分析経験と学歴と学生インターン以上のスキル」の組み合わせを満たしていれば可能だ。
データサイエンティスト転職の参考リンク
ビジネスマンルート
DSでもDEでもなく職業としてAI・人工知能に携るにはTier 4にビジネスマンとして入るか、営業やコンサルタントから営業・プロジェクトマネージャー(管理職)としてTier 3,Tier 4に転職する方法がある。これは普通にハッピーな話だ。賢者に転職出来るのは仕事を積み重ねてきた者だけだ(嘘)
ビジネスマンルート向け参考リンク
無職転生
どうしても無スキルから転職したい、という地獄を心にお飼いで甲子園*50からプロ入りするに厳しいお年ごろであれば専門学校に行って技能を身に付けるのはどうだろうか。(頼れる学費サポート|日本電子専門学校)
4年制大学は若いならアリだが一般枠だと無スキルおじさんは入っても鬱で退学になる。電気通信大学の夜間 や通信制の諸大学、放送大学なら年齢に関係なく可能だ。(留年しないとは言っていない)
学士、または大卒程度の能力があるなら大学院大学、大学院でCSを学べる。無から研究計画書を錬成し、入試を突破するのはそこいらの資格試験突破より超難題ですが……
学位が重要でなければおっさんの就職・転職対策は大学より専門学校、専門学校より独学、独学より大学院の方が効率は良いと思う。(独学が可能ならな)
海外のオンライン大学、オンライン大学院に夢を見るのは止めた方が良い。YouTubeで大学講義を見るのとは異なり、興味がない講義も取らないといけないし定期試験の準備に膨大な時間がかかる。サポートも少なくオフラインの学位より評価されない。*51
無スキル向け参考リンク
学生ガイドライン
高校生は偏差値が高くて大都市・大都市近郊、出来れば東京の大学の理系に進学しよう。入試はちゃんと手段をググって計画練って高速道路を走れば才能ない地方底辺でも、ある程度のチャンスはある。
未経験三流文系は普通どうやったってどうにもならんでしょ?(笑)
理系大学生は勉強して能力を付けてインターンや学会発表したら良いのではないのでしょうか、知らんけど。
あと地方の大学生は単純に不利だが、実力付けるとTier 2以上は給料も交通費・宿泊代も出してくれるので情報集めてインターン応募するか学会でHuntingに遭って夏休みに頑張って挽回してください。雑魚は自腹でキャリア積んでください
学生向け参考リンク
- 「 JX通信社データ分析インターンを退職(休職?)しました - ML×Econな学生ブログ」(2020)
- 「インターン選考記録(対策・感想)」(2020)
- 「メルカリのBI、データアナリストのインターン体験記|まおさかな 」(2019)
-
「理論系修士院生が自由応募就活した結果それなりの満足度のデータサイエンティストになれた - カイヤン雑記帳」(2018)
g. データサイエンティストになったら
最後に見習いデータサイエンティストになれた後の話をする。
最終的にどうなりたいのか、目標を持っていなければやってられない職業だと思う。曖昧だと転職も出来ない。
『私はスーパー能力があるからアーリーリタイアのことしか考えてないです』と公言して憚らない人もいるし、底辺YouTuberとして成金アピールするのが生きがいの人もいるが、その辺は例外としよう…… 人生は冒険や!
一般に動機や目標は具体的であった方が幻滅せず継続できると思っている。『「データサイエンス」って言葉の響きがかっこいいから』では言葉の響きと現実の差に直面すると死ぬ。(よくいる)
遊びや趣味の週末データサイエンティストや他の技能で優位があるなら別だが、一般に職業としての「見習いデータサイエンティスト」には安定はなく、遊んでられる週末も高給もなければ未来もない。理由なしに選んで後悔しない道ではない。
Tier 1, Tier 2のDSはデータサイエンスの話だけをしていられる場合もあるが、それ以下は『データサイエンティストのためのスキルチェックリスト/タスクリスト概説』 に書いてある諸雑務の遂行能力や営業スキル、コミュ力、世渡り能力が要求される。なければコストカットだ。また新卒のデータサイエンスの技能レベルは毎年、上がっている中、あなたの保有技能がそれを下回ればDSとして経験を積む機会は消える。
一応、熟練データサイエンティストになれた後の話もする。
そのまま社内で管理する立場に回る、分析エース・分野の専門家としてビジネス実績を積む、論文やkaggleなどのコンペで対外成果を出す、OSSに貢献する。もしくは転職、VCに転身、起業、フリーランスになる、研究者を目指す、アーリーリタイアなどになるだろう。
先発優位が強い上に先行者の数は多いので、業界や会社が急成長しない限り今から普通の「見習い」が上まで登り詰めるのは難しい。どこでも良いなら別の山へどうぞ。
どうなりたいか、に関係するが100点満点を目指すより自身の目的に特化した方が良い。DSかくあるべき論でよく聞く内容のうち、私は情報幾何や計算理論、渡辺ベイズはちゃんと理解してないし、Tensorflow・PyTorchの実装も見てないし、CSのトップジャーナルに論文は載っていない。C++やFPGAで高速化チューニングが出来る訳でもなく、 Kubernetesは使い込なせず、NoSQLとRDBの違いも説明出来ない。*52
データサイエンティスト協会とやらによれば Associate Data Scientist以上Full Data Scientist 以下だが、スキルセットに記載されているセキュリティ技能やブロックチェインなどには興味もない。
俺やっぱDSの紛い物だったわ
業務でもデータサイエンティストブラックホールになっているアドテクにほとんど興味がなく、画像認識、NLPの先端研究なんかにも関心が持てず使い込なす技能もない。そのため他の専門知識と実績を増やしてなんとかサバイブしようとしている。これが紛い者DSの現実だ。
応援メッセージ
そんなわけで、まぁ紛い物への成り方とノウハウは書いといたので未経験文系の皆さんとかも3ヶ月(?)で、でーた?カイエン?なんちゃらら?とかいうのになって人生逆転してみてくださいw
補足
(この問題に対して noteで補足されたので先に紹介、追記しておく。「データサイエンティスト」という言葉の濫用について|note)
- ・「データサイエンティスト」が示す内容は、
データサイエンス,CSのPh.D研究者「(マジの)DS」、研究従事者「DS(狭義)」、データサイエンス応用業に従事する人「DS(広義)」
データサイエンス技能のこと「DS(技能)」、DS協会のいう雑務含めた諸技能「DS(協会技能)」、分析技能保持者のこと「DS(保持)」
データを扱う業務に携わっている人「DS(関連業)」、資格を持ってる人「DS(ブロンズ・実装師)」、協会認定者「(協会認定)DS」、
kaggleやってみた人「DS(titanic)」、Python触ってみた人「DS(Python)」、詐欺師の人「DS(情報商材)」などが混在している。
*1:『【年収1000万円】1.SQL 2.python 3……これらを3ヶ月ガチるだけであの高給取り職「データサイエンティスト」になれることが判明! MARCHと同じレベルとかお前らなら余裕よな? 』(出典:まとめサイト)や
『未経験からデータサイエンティストになる方法』(出典: note.comで売っている人気情報商材)、
嘘松で注目を浴びるインフルエンサーワナビー、人材紹介会社の煽りステマを念頭にしている。
*2:勉強し始めた理由もしょうもないもので、講義の課題レポートで出した仮説を否定され、『A』を取るため再反論する上でデータサイエンスを使う必要があったのが最初の動機だ。
まぁクソ文系の理由ってそんなもんだろ。
*3:確かにDockerは良いプログラミング環境の構築ツールとも言えるが、応用的で難しいのと特定のOS(家庭用Windows)だと最近のアップデートまでは動作しなかった。クソ記事書く連中は複数のOSの動作確認なんてしてないし、そういう問題には言及しない。
おじさんの半年分の進捗は『0』だった。
*4:Windows上ででプログラミングに適した別のOS(Unix)を疑似的に再現するソフト、あくまで疑似的であり制約やバグがある。
*5:Virtual Machineの略。PC上で仮想的に別のPCを動かすこと。負荷が2倍かかる。
*6:生のWindowsでプログラミングをするのはその目的のジャンルと知識量に依るが、概ねツラい。
*7: 最近公式から登場した別のOS機構がWindows上で動く仕組み
*8:運営側にマトモな人間が一人も居なかったのだろう
*9:有料動画配信サイト
*10:今は「データサイエンティスト 成り方」で検索してもアドテク企業による虚無キュレーションサイト、リクルート(とその周辺文化圏企業)による転職煽り、ゴミ溜めサロン(30万)・プログラミングスクールの勧誘、自称カリスマ執筆本の宣伝しか出ない。
マトモな情報は、これらの搾取ビジネスが邪魔して容易には手に入らない。そもそも情報を市民が大衆向けに発信する文化が育っていない。
その結果として環境に恵まれた者しか情報を享受することが出来なくなっている。これは解決すべき課題だ。
俺は多様性が生む化け物を見たいんだ。
*11:どうやって計算が動いているのか、このシステム制約の理由は何か
*12:海外の質問サイト
*13:みんなが技術を公開するところ
*14:それぞれの境界を厳密に考えるのは難しいが、個別のイメージがあれば技術選定で躓かずに済む。
*15:2020年7月前半時点
*17:スラスラコードが書ける程度の人
*19:Real Time Attack、3ヶ月以内に10年選手を追い抜き、そのポジションと雇用を奪う早さを競う競技のこと
*20:もちろん「どうしても時間が無い」、「体力が続かない」など困難であれば飛ばしてもよい。よくはないが…
*21:上のブログの著者、Google JapanのPVでDSとして登場したりしている。
*22:この「詳しくない」は実務家以上、専門家未満という意味だ
*23:TJOの2021年度版に少しでも反映して頂けたら嬉しい
*24:オンラインの分析コンテスト
*25:分析技術に関する教育を受けたことが無い人
*26:Natural Language Processing、自然言語処理。Chat Botやレコメンドの技術
*27:自動運転や物体識別、動作認識などの技術
*28:私は「機械学習における繊細な議題についてドヤ顔で半端な知識を語られても困ります。まず、この本でも読んで下さい(怒)」と上司に対しても発言し喧嘩になった事がある。
*29:空間分析、ネットワーク分析、異常検知、統計力学とか全編未タッチになってる分析手法、結構ある気がするが私がちゃんと勉強してないので紹介出来ない。
*30:本の内容をパソコンにタイピングしなおすこと。
*31:動作バージョンが固定されておらず、テストも無いため、参照しているDocker Imageであるdatascience-notebook に破壊的変更、使用しているライブラリAPIの変更、それらの依存関係間でコンフリクトが起きると発生する。気づいたらプルリクを送れば良いはず。
*32:math harassment、数学出来る奴が出来ない奴を追い詰めること。
*33:バージョン管理ツール
*34:ここでは文法を理解した人
*35:コーディングに苦手意識の無い人
*37:出禁
*38:私はPGではありませんが
*39:比較用に他人が書いたDS向け本リストをググると全然ちゃんとしてないクソ記事ばかり出てくるので私の心は過剰に荒んでいた。
*40:私もアップデート本はわざわざ全部読み直す体力がなく(未読)ってリストに書いて紹介してるだけですが
*41:代替の学習手段がある、初心者向けではない、誰もが読むべき本ではない、長期間読まれるような本でないなどの理由
*42:自分自身にも多少刺さる
*43:5年前、データサイエンティストブーム第二世代の終わり頃はTier 2でも「学生のうちからAIを良い感じに実装して実務の課題を解決出来るなら優秀」みたいな風潮があった。
しかし今(2020年)の第三世代はインターン選考で「専門性、広範なプログラミング能力、実績が備わっていないと一次審査落ち」まで競争率高いので怖い
*44:はてブ上で『 躓くことがムダにしか見えていない著者は未熟』というコメントに賛同者が集まっている。躓いた連中は消えた。
*45:最近は「大学入学と同時にKaggle、分析インターンに打ち込みました。文学部卒でもTier 2 DS!」みたいな戦闘民族も居そうだが。
*46:バイアスがある
*48:Amazon Web Services, AI等を動かすパソコンリソース、インフラを確保するときに使うAmazon社のクラウドコンピューティングサービス(計算リソースのオンデマンドレンタル・従量課金制貸し出し)のこと。
*49:数年後に残っているかは疑問
*51:体験記を集めた。
*52:実際これらを全て満たすのは現実的ではないが自分の専門に近い物は満たした方が良いとは思う。(私は二流以下なので出来てない)