(cache)Haruki Sonehara / 🇺🇸シリコンバレーのプロダクトマネージャー(B2B・B2C) on X: "テスラのAIエンジニアさん、めちゃくちゃいいこと言ってる。多くの人が「機械学習のプロジェクト＝モデルの学習がほとんど全部（99%）」だと思ってるが、実際は全然違う。 1. モデルの性能をちゃんとチェックする評価：50% 2. データのゴミを掃除したり整えたりするデータクリーニング：40% 3." / X

Haruki Sonehara / 🇺🇸シリコンバレーのプロダクトマネージャー(B2B・B2C)

テスラのAIエンジニアさん、めちゃくちゃいいこと言ってる。多くの人が「機械学習のプロジェクト＝モデルの学習がほとんど全部（99%）」だと思ってるが、実際は全然違う。 1. モデルの性能をちゃんとチェックする評価：50% 2. データのゴミを掃除したり整えたりするデータクリーニング：40% 3. システムに組み込む作業：8% 4. 実際にモデルを訓練する作業：わずか2% 大事なのは最初の2つ。評価とデータ整備で「学習できる限界」が決まる。どんなにすごいモデルでも、与えられたデータの質を超えて賢くはなれない。データが汚かったり、ラベル（正解の付け方）が曖昧だと、モデルはそれ以上のことは学べない。だからオントロジー（データにちゃんと意味やルールを付ける作業）を毎日考える必要があるし、古いラベルも見直し続ける必要がある。ラベルが間違ってると、モデルが根本から勘違いしたまま学習してしまうから。要するに、モデルを強くするより、データと評価をちゃんと整える方がよっぽど大事ということ。

Yun-Ta Tsai

@yunta_tsai

Jun 20

Many people think any given ML project is 99% training. In reality, it’s 50% evaluation, 40% data cleaning, 8% integration, and 2% training. The first two set the noise floor for learning. No ML magic matters; the model cannot lower the noise floor, as that’s the optimal bound

10:00 PM · Jun 20, 2026242.3KViews

Post

Post