AI

高速かつ高品質な画像生成AI「Z-Image」をAlibabaが公開


Alibaba所属の研究者が、リアリティのある画像の生成に優れたモデル「Z-Image(造相)」を開発しました。Z-Imageのパラメータ数は60億で、短時間で高品質な画像を生成できることを特徴としています。

GitHub - Tongyi-MAI/Z-Image
https://github.com/Tongyi-MAI/Z-Image

Tongyi-MAI/Z-Image-Turbo · Hugging Face
https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

Z-Imageは3つのバリエーションがあり、それぞれ特色が異なります。


・Z-Image-Base:ベースモデル。

・Z-Image-Turbo:Z-Imageを蒸留したバージョンで、わずか8回のNFE(関数評価回数)で主要競合モデルと同等以上の性能を発揮するモデル。エンタープライズグレードのGPU「NVIDIA H800」上で1秒未満の推論レイテンシを実現し、16GB VRAM搭載のコンシューマーデバイスにも収まる。フォトリアリスティックな画像生成、英語と中国語の二言語テキストレンダリング、堅牢な指示順守に優れる。

・Z-Image-Edit:画像編集タスク向けに微調整された派生モデル。創造的なimage-to-image生成をサポートし、印象的な指示順守能力を備え、自然言語プロンプトに基づく精密な編集が可能。

記事作成時点で、Z-Image-Turboのみが公開されています。以下のページからブラウザ上で動作するデモ版を試すことができます。

Z Image Turbo - a Hugging Face Space by Tongyi-MAI
https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo


Z-Imageのパラメータ数は60億で、これは既存のモデルを下回りますが、パラメータ数が桁違いに大きいモデルと同等のフォトリアリスティックな画像を生成できるとされています。


文字出力にも対応し、英語と中国語の正確なレンダリングに優れているとうたわれています。公開された画像によれば、日本語も一部生成できているようです。


デモサイトで試してみたところ、日本語テキストの生成はなかなかうまくいきませんでした。


推論機能も実装されていて、画像に写っているものを読み取って推論することもできます。以下画像の左半分は、鶏とウサギの頭と脚の数から頭数を導いた様子、右半分は「登科後」という漢詩から有名な一節を記述させたものです。


元の画像の特徴を保ちつつ構図の変更や画風の変更などの編集操作を行うこともできます。


評価試験では、「Qwen-Image」や「Seedream 4.0」といった主要なモデルに並ぶ性能を見せました。


◆フォーラム開設中
本記事に関連するフォーラムをGIGAZINE公式Discordサーバーに設置しました。誰でも自由に書き込めるので、どしどしコメントしてください!Discordアカウントを持っていない場合は、アカウント作成手順解説記事を参考にアカウントを作成してみてください!

• Discord | "「日本語」の文字をしっかり出力できるAIを教えて!" | GIGAZINE(ギガジン)
https://discord.com/channels/1037961069903216680/1443892892790816828

この記事のタイトルとURLをコピーする

・関連記事
ChatGPTに高精度な画像生成機能「4o Image Generation」が追加される、GPT-4oの知識を活用しつつ画像を生成可能で著名人を含む画像も可 - GIGAZINE

Googleの画像生成AI「Gemini 3 Pro Image(Nano Banana Pro)」は過去モデルや他社製モデルと比べてどれくらい優秀なのか? - GIGAZINE

ByteDanceが画像生成AI「Seedream 4.0」をリリース、4K解像度の画像を生成可能&画像編集機能も備えてGoogleやOpenAIを一部テストで上回る - GIGAZINE

画像生成AI「Qwen-Image」登場、OpenAIやFlux超えの高品質画像を生成可能で「複数行の漢字」を自然に描写できる驚異的テキスト描画性能をアピール - GIGAZINE

in AI, Posted by log1p_kr

You can read the machine translated English article Alibaba releases 'Z-Image,' a high-speed….