生成AI開発の難しさ。AIベンチャーのCTOを半年経験して
はじめに
どうも医者やめCTO、イコラです
前回の記事ではエンタメベンチャーLivetoonのCTOになったことを書きました!
そこから半年以上たって、ようやく弊社も最初のサービスをローンチしました!サービス開発についてはまた別記事にします!
ということでCTOになってから半年経過して分かった、生成AI開発の難しさについて、今日はお話しようかと思います
LLM・生成AI開発の罠
何気なくリポストして反響あった投稿
VCも国もですが、もし本当にフルスクラッチ基盤モデルを開発するなら2桁くらいズレています
現行のAIのトレーニング(GPT-4oなど)には約160億円かかっているとされています。トレーニング単体ですので、研究や探索などを考えるともっとかかっているでしょう
さらにこれからはトレーニングコストが10倍・100倍になるかもしれないのです
Fine-tuningに限ると急にお手軽感が出てきますが、それでも大きなモデルをTuningするにはざっと1億くらいないと厳しい所感です
生成AIは御存知の通り、OpenAIが提唱したScaling Lowに支えられています。
つまりでかいデータでトレーニングすればするほど性能が上がります。とにかくデータという薪をくべるしかないのです!!
もちろんアーキテクチャ的な改善はあると思います
特に中国産Deepseekについては従来より効率的な学習・推論が可能となっているそうです
しかし大枠で捉えると、札束で殴るゲームになります
X社のGrokについては学習のスケーリング則について一番ボトルネックになるであろう計算資源(GPU含むインフラ)の拡大を、スペースXやTeslaなどで培ったであろうイーロン・マスク流の物理スケーリングで解決しています
未知がゆえの難しさ
直近ではMeta社(Facebook)のLlama 4がどうも失敗したようだと話題になっています
生成AIのTrainingにはただデータを増やすだけでなく、効率的なアーキテクチャや重要なデータの整備などが必要です
AIのTrainingはそもそもが大きな博打です
うまくいくかどうか事前にわかりません
一般的なWeb開発とは違って全く確実性がないので、半年かけてお金もガンガン投入したモデルがゴミでした。ということが全然ありえます
なので事業計画も開発予定の強いモデルを前提にするとかなり危ういです。
しかも良いモデルを開発したとしても、他社がものすごいスピードで追いついてきます
その上OpenAIなどが新機能を発表するたびにいくつものベンチャーが焦土と化す不安定な状況です。一寸先は闇ですね
生成AIのモデル開発をベースに事業を展開することの難しさが伺えます
そもそもの難易度
そもそもですが、AI開発は難易度が高いらしいです
個人的には記事とか論文読んだら分かるやん?AIもコーディングを助けてくれるし、、と思っていましたが、どうやらそうではないらしいです
特有なお作法もありますし、新しい手法がガンガン出てくるので脳みそを常にアップデートする必要があります
昨日イケてなかった実装や概念が、次の日にはスタンダードになることだってあります
前段で話したように不確実性が高いからこそ、常に論文・情報をWatchする必要があります
となるとやはりそれなりに頭の回転が必要なのかもしれません。しかも頭がただ良ければいいわけではなく、知的体力が必要です。無限に調べて、無限に実装を試して、無限に改造する必要があります。もしかしたらその知的体力を裏打ちするのが、好奇心なのかもしれません。好奇心旺盛な人はAI時代に圧倒的に強いです
そういうこともあってか僕が知ってるAIベンチャーのCEOとかは、旧帝大の情報系か、情報系でなくともそれなりの学力(東大・京大・医学部レベル)でないと雇わないと言ってる人は少なくないです
僕自身はそんなに学力を重視しているわけではないですが、伸びしろの重要なファクターではあると思っています
うちのメンバーでも基本的に議論は論文ベースで行っているので、そういうのをサクサクこなせるようにならないと難しそうというのはあります
AI人材の採用時も基本僕の質問は「最近読んで面白かった論文について解説して!」というものです
日本語特有の問題
LLM
日本語もLLMやTTSの障壁になります
当たり前ですが中国語や英語に比べてデータ数が少ないのはもちろん、デカいモデルに関しては基本その両国のどちらかから出てくるので、日本語にTuningすることが不可欠です
そうなるとTokenizerが違うので非常に学習効率が落ちます。また「ひらがな」「カタカナ」「漢字」が交じるのが厄介です。中国産LLMについては同じ漢字文化圏なので英語圏のLLMよりも感じとかが強いです。しかしそれがかえって厄介になることも。漢字なんだけど日本語では普段書かれない中国語の漢字が混じりやすくなってしまい、それを取り除くための学習が必要になります
TTS(音声合成AI)
Aivis Speechの開発者も言ってますが、日本語はとにかく難しい
発声自体が他の言語と異なる上に、アクセントの概念があり、これを学習させるというのがなかなか難しい
データ数を増やしたからといって自然にこのアクセントを学べるかと言うと微妙なところです。相当量増やす必要があります
話者が1億人超えてる言語の中では日本語は最難関に近い言語なのでは?と思っています。それくらい独特です
そしてベースの学習アーキテクチャはやはり中国かアメリカから出てくるので、日本語のアクセントを学習する機構は後付けする必要があります。これがまた大変
リソース不足
カネがない
これはベンチャーあるあるなので特段生成AIジャンルが特殊というわけではありません
しかし生成AI分野はまだ市場が浅い割に期待感が高いので、出口戦略がない会社がポコポコ出てくる状況
勝ち筋がまだ見えておらず、皆手探りなのでこのあたりもやっぱり資金獲得(出資金はもちろん、実際の黒字化)が難しい
人がいない
こっちのほうが大きいかも
生成AI時代には独特なエンジニアリングが要求されます
Prompt Engineerなんていうおバカな職種が注目されたことがあるが、実際これがまた結構馬鹿にできない状況にある
Promptだけをハックするなら、頭が良くて文章構成能力の高い人を雇えばよいですが、Promptを含めた総合的な生成AIの体験価値=生成AI時代のUXとなると、如何にLLM特有のランダムネスを減らし、良質なパイプラインを構築するかが肝になってきます
そういった新しいエンジニアリングについて、まだまだできる人は限られていますし、先程言ったように地頭や深い洞察力が必要です
AI開発組織を作るということ
ただただAI開発が難しいという話をしてもオチがないので、ではどういった人がどういう方針で開発組織を作ればいいのか?
どう解決すればいいかについても少し頭を捻ります
私自身、東大病院循環器内科のAIチームにも所属しています
経験が沢山あるわけではないですが、生成AIというジャンルではそれなりにバリエーションのある現場を見ていますし、話も聞きます
その中で思うのは、技術が分かるリーダーがしっかりと方針を立てる事が大事だということです
肩透かしを食らうような単純な結論ですが非常に大事です。AIの技術がわかるというのは「AIの技術がわかる」ということです
もっと言うと極論その人ひとりでもAIの開発が全部できてしまう凄腕人材を連れてきて、その人に指揮を執らせるということが重要です
どこか一つ、パーツや理解が浅いととんでもない落とし穴にハマりますので隙がないようにしなければいけません
AIの開発現場を知らない人から見ると、天才が一人いれば何でもできるように思えますが、探索的にいろいろな方法をアタックする必要がありますし、探索で失敗した場合のバックアップ要員も大事です。前処理などの作業を分担することでAIモデルの完成を圧倒的に速めることもできます。もちろんメンバーが全員優秀という大前提がありますが
AI開発は想像よりも労働集約型であると理解していただければと
考えられる戦略
さてここまで難しさとAI開発組織の話をしましたが、最後に考えられる戦略、もしくは生成AIスタートアップの取るべき戦略についてまとめます
巨大ディープテックと同じ土俵に立つな
これはもう散々言われている話ですが、ディープテックが好みそうな”ど真ん中”のフィールドを避けることです
残念ながら生成AIエンジニアとしてはどうしても”ど真ん中”をやってみたい気持ちになってしまいます
そこをグッとこらえて、冷静にコストやリソースを計算するべきなのです
そのためには常に最新情報を分析して、OpenAIやGoogleの動向をwatchする必要があります。彼らの裏をかく必要があるのですね。言い方を変えればハイエナのようなコソコソとした立ち回りが必要です
領域特化でも良いですし、大手が参入してこなさそうな参入障壁があるもの、もしくはライセンスビジネスを行ってる会社との連携が考えられます
そして冒頭にもいいましたが、安直に自社モデルなんてものを作ってはいけません
自社モデルを軸にして、もしそれが陳腐化した時、目も当てられないです。自社モデル開発も大事ですが、それに頼りすぎないビジネスモデルを作る必要があります
スタートアップの最大の武器”狂気”
一方で、巨大ディープテックの腐肉を漁るハイエナのような動きしかできないかと言われればそうではありません
スタートアップの最大の武器は”狂気”であり、それに裏打ちされた”圧倒的なスピード”です
巨大ディープテックが注目してない場所でどこか一点突破できれば十分に勝機はあると思います。それはもちろんAI単体の性能の場合もありますし、ビジネスモデル含めてかもしれません
それにAIの性能は時々プラトーになります。裏側のモデルをアップデートに合わせてすげ替えれば十分にスピードについていける可能性もあります。そういった成長曲線も見据えてビジネスモデルを構築できれば、最初は拙いものでもAIモデルの成長と共に立派になる可能性があります
最後に
こんな長文・駄文を最後まで読んでくださりありがとうございます
ちなみに記事を書いてる5月現在、実は自社の完全フルスクラッチTTSが完成間近(Training中)で恐らく間違いなく日本語No.1の音声合成AIになると思います
ただし先程行ったように、不透明な部分もありますし、明日急にOpenAIやGoogleが最強のTTSを発表する未来もあり得ます
ということでばいちゃ!



コメント
2良い記事ですね!こう言う本音が聞きたかったです!
ありがとうございます!若干ぶっちゃけていますが、嘘偽りなく書いたのでスッキリしました笑