テスラのAIエンジニアさん、めちゃくちゃいいこと言ってる。
多くの人が「機械学習のプロジェクト=モデルの学習がほとんど全部(99%)」だと思ってるが、実際は全然違う。
1. モデルの性能をちゃんとチェックする評価:50%
2. データのゴミを掃除したり整えたりするデータクリーニング:40%
3. システムに組み込む作業:8%
4. 実際にモデルを訓練する作業:わずか2%
大事なのは最初の2つ。
評価とデータ整備で「学習できる限界」が決まる。どんなにすごいモデルでも、与えられたデータの質を超えて賢くはなれない。
データが汚かったり、ラベル(正解の付け方)が曖昧だと、モデルはそれ以上のことは学べない。
だからオントロジー(データにちゃんと意味やルールを付ける作業)を毎日考える必要があるし、古いラベルも見直し続ける必要がある。
ラベルが間違ってると、モデルが根本から勘違いしたまま学習してしまうから。
要するに、モデルを強くするより、データと評価をちゃんと整える方がよっぽど大事ということ。
Many people think any given ML project is 99% training.
In reality, it’s 50% evaluation, 40% data cleaning, 8% integration, and 2% training.
The first two set the noise floor for learning. No ML magic matters; the model cannot lower the noise floor, as that’s the optimal bound