hitode909の日記

以前はプログラミング日記でしたが、今は子育て日記です

ChatGPTに撮影時の条件込みで画像の内容を説明してもらって、ImageFXで生成するとほぼ同じ画像を作れておもしろい

タイムラインで流れてきたポストから、Googleが作っているImageFXが作ってくれる画像のクオリティが高いように見えたので、触ってみていた。

ImageFXの作例

これが自分で撮った紅葉の写真で、

こっちが、Image FXに、京都の紅葉、50mm f1.4バブルボケ、とか伝えて作ってもらったもの。

ChatGPTに同じ入力を渡すと、こんな画像なので、仕上がりの違いがわかると思う。
どこか嘘っぽいというかメルヘンな仕上がりになりがち。

ここまでできるなら、手持ちの画像そっくりな画像を作れるのでは、と思って試してみる。

手持ちのラーメンの画像そっくりなラーメン画像を作る

ChatGPTに、自分で撮影したラーメンの写真をアップロードして、この画像を作るためのプロンプトを作って、とお願いする。

この画像と同じ写真を生成AIで作りたいので、プロンプトを生成してください。内容だけでなく、レンズの口径とF値、ボケ具合、光の入り方、ホワイトバランス、照明の向きなど、撮影時の条件も推察して出力してください。

するとこんなプロンプトを考えてもらえる。

A bowl of rich Japanese ramen with clear, golden broth. The ramen features a large slice of pink char siu pork on top, a perfectly soft-boiled egg with a creamy yolk, and a sheet of dark green seaweed leaning against the bowl. The noodles are slightly visible beneath the pork, and the entire dish looks warm and appetizing. The photo is taken indoors with warm, natural lighting from a side window and subtle artificial light in the background. The depth of field is shallow, with the background softly blurred, emphasizing the ramen bowl. The color balance is warm, enhancing the golden hues of the broth and the vibrant tones of the pork and egg. The photo mimics a 35mm lens with an aperture of f/2.8, providing a balanced bokeh while keeping the main subject sharp. The camera angle is slightly above the bowl, giving a close-up view of the details. The overall atmosphere is cozy and inviting, typical of a ramen shop.

一応和訳するとこんな内容。自分でこの文章を書くのはめんどくさすぎるので、AIにやってもらえてありがたい。

濃厚な日本のラーメンに、澄んだ黄金色のスープがかかった一杯。ラーメンの上には、ピンク色の大きなチャーシュー、クリーミーな黄身の半熟卵、そして丼にもたれかかった濃い緑色の海苔が乗っています。チャーシューの下には麺がかすかに見え、全体的に温かみがあり食欲をそそります。写真は、横の窓から差し込む温かみのある自然光と、背景にほのかな人工照明のある屋内で撮影されました。被写界深度は浅く、背景は柔らかくぼかされており、ラーメンの丼が強調されています。色のバランスは温かみがあり、スープの黄金色とチャーシューと卵の鮮やかな色調が強調されています。写真は、絞り値 f/2.8 の 35mm レンズを模倣しており、バランスの取れたボケ味を実現しながらも、主題を鮮明に保っています。カメラアングルは丼の少し上にあり、細部をクローズアップで見ることができます。全体的な雰囲気は、ラーメン店らしい、居心地が良く魅力的なものです。

このプロンプトをGoogleのImageFXに渡すと、元画像とそっくりなラーメンの画像を得られる。

個人的におもしろいと思う点は、内容だけでなくて、撮影時の条件を書いてもらっている点。
35mmレンズでf2.8、とわざわざ指定することで、近さが高まっている。
家系のスープからスッキリ醤油に切り替わったり内容は変わっている、という内容の変化があるのもおもしろい。
画像をテキストに戻して画像に書き戻す工程で抜け落ちる情報を楽しむ、という形で楽しんでいる。

ためしにプロンプトから撮影時の条件を削っていくと、ラーメンだね…という画像になっていって、近さが下がっていっていると感じる。

いろんな画像を作ってもらう

新幹線のビールとシュウマイの画像を作ってもらうと、

ほぼ同じで、プレミアムモルツって書いてあるけど、細かい字はおかしなことになっている。

ちくわキュウリの画像を作ってもらうと、

プロンプトにはchikuwaって入っているけど、うまく作ってもらえず、ベーグルキュウリサンドが出てくる。

カラフルシャツでコーヒーを飲んでる人物(フリー素材ではなくて、著者です)を作ってもらうと、

似たようなカラフルシャツを着た別人が出てくる。

今後の展望

変換の工程を自動化しようと思ったけど、ImageFXが呼び出しているImagen 3のAPIはまだ一般公開されていない
スマホで写真を撮影すると、AIが作ったそっくりな画像が出てくる、というのを作りたいので、そのうちAPIができたら作りたい。
何が嬉しいの…と思われそうだけど、使い道もあって、人が写った写真ってネットに上げにくいけど、一度テキストに変換してから全部AIにそっくりな画像を再生成してもらうことで、プライバシーに配慮した画像を簡単に作れて楽しいんじゃないかと考えている。
とくに、本人はいいとしても、子供の画像を勝手にインターネットに上げるわけにはいかない。

これは先日、うちの子がリビングでVillage Cooking Channelを見ているときの写真を再生成してもらったもの。
ウェブに日記を書くうえでの課題として、登場人物がインターネットにどんどんアップロードされる、という課題があるけど、いいかどうかはさておき、これでよければ本人の画像をアップロードすることなく、そっくりな画像を簡単に用意できる。


プロンプトはこれ。コピペ用に置いておきます。

この画像と同じ写真を生成AIで作りたいので、プロンプトを生成してください。内容だけでなく、レンズの口径とF値、ボケ具合、光の入り方、ホワイトバランス、照明の向きなど、撮影時の条件も推察してプロンプトに含めてください。EXIFに埋め込まれた情報を参照してください。英語のプロンプトのみを1行で応答してください。

その他作例

だいくしーさんの作例。ビールのグラスの文字がSUPER DEERになってるのがおもしろい。



追記:透かしについて

コメントを見ていたら、AIが作った画像と本物の画像の見分けがつかなくなるんじゃないかと心配している人がいた。
視力的にはもう見分けは不可能だと思う。紅葉の写真などは、画面映えをもとめてカラフルなフィルタが当てられがちだし、良いとされるもみじの写真は非現実感が伴いがち。
技術的にはImagen 3から生成した画像には透かしが入っていて区別できるそうです。

Imagen 3 は安全対策が組み込まれており、Google の製品設計原則に準拠した高度な画像生成機能を提供します。また、さまざまなベンチマークにおいて、他の画像生成モデルとの比較して優れた性能を示しています。また、Imagen 2 と同様に、Imagen 3 も AI 生成画像に透かしを入れるツールである SynthID を採用しています。

Gemini に新しい機能が追加:Imagen 3 による画像生成とカスタム Gem

Androidでは画像を長押し→Googleレンズで画像を検索→この画像について、に行くと、「Google AIで生成」と教えてくれる。

まだ Google 検索だと確認はできませんが、Google レンズ を使うと、それがAI で作られたかどうかの判定ができるんです!

Gemini で画像生成が再開されました!/ SynthID による電子透かし|けいすけ

技術的にはそうだとして、モラル的には、ブラッド・ピットがあなたに直接、1億3000万円の寄付をお願いしています、みたいな詐欺に使われる可能性はあるかもしれない。
消費者としては、画像を頼りに寄付などの重要な判断しないことが重要だと思う。