2025年7月 月刊技術ニュースまとめ
6月後半からちょっと忙しくて放置してたら1ヵ月たっていました。
その間にGrok4が変な方向で進化していたり、最強オープンモデルKimi K2が出ていたり、Qwen3がアップデートしたり、Gemini CLIやらKiroやら出たり、そしてOpenAIのオープンモデルは出なかったりしましたね。
あと、AIが人間の騙し方を学んでいたり、AIコーディングツールで効率化したと思ったら実は遅くなっていたという話もありました。
前回はこちら
リリースされたAIモデル
Qwen3シリーズアップデート
いくつかアップデート出ています。Thinkingとnon-thinkingを切り替えれるのが売りだったけど、分離させたようです。
ただ、ベンチマークのスコアは高くて以前よりは良くなってる感じはあるけど、ちょっと実際に使うとダメ・・・
新しいサイズのQwen3 Coderはよさそう。
Qwen3 Coder 480B
480Bのコーディングモデルです。今回のQwen3ではこれだけ唯一使えるかな。これはかなりよさそうです。
480Bの汎用モデルを出さないのかも気になります。
Qwen3 Coder 30B
Qwen3 30Bベースのコーディングモデル。ベンチマークはDevstral small 1.1よりちょっと低いくらいだけど、実際に使うともっと弱そう。
Qwen3 30B-A30B-Instruct-2507
non-thinkingです。
Qwen3 235B-A22B-Tinking-2507
コーディング性能も高いってことだったけど、ちょっと期待外れだった。
Qwen3 235B-A22B-Instruct-2507
non-thinking版
Grok4リリース
Grok4が出て割と賢いという話が出ていたところ、aniがやってきて全部もっていきました。
1Tのオープンモデル、Kimi K2
moonshotから、1Tでアクティブ32BのClaude Sonnet 4に肉薄するオープンモデルが出ています。
Kimi-Dev 72B
moonshotのコーディングモデルです。Qwen2.5-72Bベース。
MiniMax-M1 456B
MiniMaxAiのReasoningモデル。
Qwen3 235B A13Bよりちょっといいか悪いか、くらい
GLM 4.5(355B-A32B)とGLM-4.5-Air(106B-A12B)
日本語画像読取に強いコンピュータ操作向けKARAKURI-VL 32B
Qwen2.5-VL-32B-Instructをベースに日本語画像読込を強化したコンピュータ操作向け(CUA)モデルです。
日本語版医療特化LLM基盤ELYZA-LLM-Med 72B
現場の医療タスクでグローバルトップ水準のモデルです。
日本語とプログラミングに強いFuture Code Ja 8B
日本語とソフトウェア開発に特化した基盤モデルとして Llama-3.1-Future-Code-Ja-8B が出ています。
Devstralの更新
2507モデルが出ています。
あとで紹介するDeepSWEが比較していた46.8より、さらに性能があがって52くらいになってそう。
DeepSWE(32B)
Qwen3 32Bベースのコーディングモデル。Devstral Small(24B)よりはちょい性能が落ちるっぽい
音声認識モデルVoxtral
Hunyuan-A13B(80B)
Tencentからトータル80B、アクティブ13BのMoEモデル
Hunyuan 7B, 4B, 1.8B, 0.5B
小さいモデルも出ています。Qwen3と同じサイズ
AI企業動向
GPT-5が準備中
Open Routerにやたら賢いよくわからんモデルが出てて、GPT-5ではって話になってますね。
OpenAIのオープンモデルは延期
7月半ばにも出るといわれていたOpenAIのオープンモデルは安全性の懸念から延期に
120B MoE A5Bと20B Denseという噂
Gemini 2.5 Deep ThinkがUltraプラン向けに提供開始
Thinkingを並列実行させて複雑な問題に対応するDeep Thinkが公開されました。
Deep Thinkの中身については、こちらのレポートに。
https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
CerebrasのQwen3 Codingホスティングが2000token/secで$50/m
2000token/sってどんな世界だ、って気がしますね。
ちなみにCerebrasはウェハーサイズのプロセッサを出してる会社です。このクソデカプロセッサで動くというのもいいですね。
ChatGPTの学習モード
完全に答えを出すんじゃなくて、レベルに応じで段階的に返答をするらしい。これよさそうですね。
https://openai.com/ja-JP/index/chatgpt-study-mode/
ChatGPTエージェント
ローカルでのエージェント
https://openai.com/ja-JP/index/introducing-chatgpt-agent/
Claude 4.1が準備中?
Opus 4.1が準備中?って噂
7月頭にも4.5かな?という話がありました。
Llama4 Behemothはキャンセル?
チャンクドアテンションが境界でコンテキストぶったぎられるとか、MoEのルーティングを学習中に変更して混乱とか、独自クロールデータを使ったら思いのほか作業が多すぎたとか、いろいろあって、もうクローズドモデルにするとかしないとか
Windsurfは幹部はGoogleへ、会社はDevinへ
OpenAIが買収するとしていたWindsurf、OpenAIの買収話がキャンセルになり、創業者や研究開発チームの一部がGoogle DeepMindに加わることになりました。取り残された人たちが心配でしたが、DevinのCognitionが買収することになりました。
経産省が楽天の生成AI開発を支援
GENIACの3期公募に採択されました。長期記憶の拡張を狙うようです。
OpenAIとMicrosoftの関係が悪化
OpenAIがGoogleのクラウドを使うという話もあったけど、関係が悪化しているようです
OpenAI DevDayは10月6日
AIツール
GoogleのコーディングエージェントGemini CLI
GoogleからAIコーディングエージェントが出ました。
AWSのAIコードエディタKiro
開発ワークフローが設定できるところがよさそうという噂。
AnthropicはClaude CodeでCLIを採用し、IDEに投資するのは見合わないと言っていたけど、提携先のAWSがKiroというIDEを開発してバランスがとれるということでしょうか。
Claude CodeがWindowsにネイティブ対応
WSLが必要になってめんどくさかったClaude Codeが、Windowsネイティブで動くようになりました。
Cursorの$200の新プランUltra
上位モデルは月数万レベルに
LM StudioがMCPをサポート
個人的に結構うれしい。
Qwenの画像生成モデル
Qwenから20Bでの画像生成モデルが出ました。
6月末にQwen chatで画像生成できるようになってたけど、そのモデルが公開されたということですかね。
AI一般
アメリカのAI指針
オープンモデルを大事にみたいなことが書いてあるので、GoogleやAnthropicからも強いオープンモデルが出るかも。
AIは強化学習で人間の騙し方を学ぶ
RLHFで正答率は変わらないのに人間からの評価があがったという話。
O3が出たころに、「人間の理解を気にせずに書いて」というと賢そうな話をすると話題になったけど、実際はそんなに変化はなかったというのもこのあたりから来てるのかな。
AIコーディングツールで開発効率化したと思ってたら非効率だった
AIコーディングツールでどれだけ作業時間が減ったかを計測したところ、開発者自身は20%高速化したと思っていたのに、実際は20%遅くなっていたという話。
その他
SwiftがAndroidを公式にサポート
すでにサードパーティツールなどでSwiftでのAndroidアプリ開発が可能になっていましたが、公式ディストリビューションだけでAndroidに対応していくらしい。
警察庁がランサムウェア複合ツールを公開
FBIの協力を得てサイバー特捜部が開発した複合ツールが公開されました。
秀和システムが事業譲渡、譲渡先が「秀和システム新社」に社名変更
社名が秀和システム新社になって本気度があって安心


コメント