コンバンハ、オイソギデスカ
DeepSeekみたいな話題が日経新聞に載るたびに新規事業になるんじゃ無いかとかプロトタイプをもってこいみたいなこと言われると災難ですよね。
何がどうなってて、何はできないんですよみたいなのまとめておいたから、俺の屍を越えてゆけ。
まず前提からな
ここまでは前提な。こっからが、まとめ。
外に出したく無いデータがあるから、AzureのAPIも使いたく無いんだよね、みたいな職場では朗報。
いまんところモデルそのものに変なものは仕掛けられていないし、QwenやLlamaよりもまあまあできる印象。
できなくは無いけど、まっさらな状態だと稟議通すの無理じゃ無いかな、という金額を載せざるを得ない。
すでにでけえGPUとかで生成AI用の環境を組んでるところなら、できるよね。
できなくは無いけど(以下略)
既にQwenやLlamaを使って自前でなんかやっているところなら、後追いで強化学習のみでいけるか追試するなんてのはできる。
(こういう設備が既にあるなら、特にDeepSeekが出たから新しく、というわけじゃ無いけどね)
無理ですね。そもそも強化学習で改善するのだってJTCなら部長決済で済まないでしょ。(外資ならワンチャンあるのか!?)
そもそものベースの生成AIモデルを作るの、特に強化学習オンリーじゃなくてTransformerベースのよくある作りで作ってあるみたいだし。
無理ですね。蒸留する(ベンチマーク用の性能改善)ならいざ知らず、自社向けの定義もデータも揃わないでしょ。
プロトタイプならあり。ビジネスに組み込むつもりなら、少なくともDeepSeekの蒸留モデルは(まだ)使えない。
QwenやLlama派生モデル扱いなんだったら、MITライセンスになるわけがないので、かなりグレー。
同様に、(流石に多分大丈夫だと思うけど)DeepSeekの改善前のベースの生成AIモデルが、適法じゃなかった時揉めそう。
なお、これは別にDeepSeekに限ったリスクではなくて、QwenやLlamaも同じなんで、基本全部同じリスクを抱えてると思った方が良い。
元になるベースの生成AIモデル作るところまでは、既存の作り方と同じなのでビックテック優位変わらず。
が、雑にベースの生成AIモデル作っても、わりあいお安く性能改善できるんで追いつけるね、というのは、多分正しそう。
なんで研究資料とかオープンにしてんの?というのは、多分2つくらい理由があって、その方が話題になって儲かるから、というのと、オープンにしておけば転職しても使えるから、というもの。
カントリーリスクは相変わらずあるので、Web版とかAPIで使うなら、趣味の大っぴらにしてるプログラミングの補助で使うとか、ゲーム用になんかするとか、じゃないかな。
ローカルで使うって言っても、余程のことがない限りAPI使ってお支払いした方が、パソコン新調するよりはお安いのではないでしょうか。
低性能なの使ってもあんま楽しくないし、思いつくユースケースは、趣味でコストをかけずにゲームに生成AI組み込みたいんで無限にローカルで試行錯誤したい、くらいじゃないかな。
オープンソースになったんだから、コモディティ化(?)して、生成AIは誰でも作れるようになる!みたいな言説はまだまだお花畑ですね。
設備投資もランニングコストも、日本のベンチャーとかじゃまともな勝負にはならんでしょ。
メモリ16GBのノートPCで動く1GiBサイズでChatGPT-4oレベルの超蒸留モデルが出てから出直してきてくださいというところ。
そんな超絶技巧のスモールサイズAIよりは、AGIの方が先にきそうだけど。
こーゆーので「しんきじぎょうだ!」とかゆっちゃう上司ってPay〇ayクーポンで100円のためにハンバーガー屋で2時間ならびそう
一方、俺はDeepSeekのアカウントさえ作れずに泣いていた。 メアドで弾かれるんだけど、なんでだ?
API使うという選択肢はないんか
この増田の直後に「MSがAzureにDeepSeek R1をデプロイして蒸留モデルをCopilot+ PCに搭載するで」って言い出して草
脱OpenAIを進めているのは分かっていたがそこまでとはな・・・😎
コンニチハ、オイソギデスカ 思ったより読まれてたので、ブコメにも出てたRAGの話を派生編として書いておくね。 最初に結論から、RAG案件は受けるな。(コンサルみたいにタイムチャー...