Post

Log inSign up

Post

user avatar
Haruki Sonehara / 🇺🇸シリコンバレーのプロダクトマネージャー(B2B・B2C)
@Haruki_Sonehara
テスラのAIエンジニアさん、めちゃくちゃいいこと言ってる。 多くの人が「機械学習のプロジェクト=モデルの学習がほとんど全部(99%)」だと思ってるが、実際は全然違う。 1. モデルの性能をちゃんとチェックする評価:50% 2. データのゴミを掃除したり整えたりするデータクリーニング:40% 3. システムに組み込む作業:8% 4. 実際にモデルを訓練する作業:わずか2% 大事なのは最初の2つ。 評価とデータ整備で「学習できる限界」が決まる。どんなにすごいモデルでも、与えられたデータの質を超えて賢くはなれない。 データが汚かったり、ラベル(正解の付け方)が曖昧だと、モデルはそれ以上のことは学べない。 だからオントロジー(データにちゃんと意味やルールを付ける作業)を毎日考える必要があるし、古いラベルも見直し続ける必要がある。 ラベルが間違ってると、モデルが根本から勘違いしたまま学習してしまうから。 要するに、モデルを強くするより、データと評価をちゃんと整える方がよっぽど大事ということ。
user avatar
Yun-Ta Tsai
@yunta_tsai
Jun 20
Many people think any given ML project is 99% training. In reality, it’s 50% evaluation, 40% data cleaning, 8% integration, and 2% training. The first two set the noise floor for learning. No ML magic matters; the model cannot lower the noise floor, as that’s the optimal bound
10:00 PM · Jun 20, 2026242.3KViews

New to X?

Sign up now to get your own personalized timeline!

Google で登録Google で登録。新しいタブで開きます
Sign up with Google
Create account

By signing up, you agree to the Terms of Service and Privacy Policy, including Cookie Use.

Relevant people

user avatar
Haruki Sonehara / 🇺🇸シリコンバレーのプロダクトマネージャー(B2B・B2C)@Haruki_SoneharaFollow
Terms·Privacy·Cookies·Accessibility·Ads Info·© 2026 X Corp.
Don't miss what's happening
People on X are the first to know.
Log inSign up