HN🔥 357

💬 366

ついに登場！ChatGPTの画像生成機能「Images 2.0」を徹底解説

wahnfrieden

約10時間前

ディスカッション (10件)

wahnfriedenOP🔥 357

約10時間前

OpenAIが発表した「ChatGPT Images 2.0」に関する情報です。詳細はこちらのライブストリームとシステムカードから確認できます。ライブストリーム: https://openai.com/live/ システムカード（PDF）: https://deploymentsafety.openai.com/chatgpt-images-2-0/chatgpt-images-2-0.pdf

🔗 リンク先:https://openai.com/index/introducing-chatgpt-images-2-0/

ea016

約9時間前

価格比較だよ：

GPT Image 2

Low: 1024×1024 $0.006 | 1024×1536 $0.005 | 1536×1024 $0.005
Medium: 1024×1024 $0.053 | 1024×1536 $0.041 | 1536×1024 $0.041
High: 1024×1024 $0.211 | 1024×1536 $0.165 | 1536×1024 $0.165

GPT Image 1

Low: 1024×1024 $0.011 | 1024×1536 $0.016 | 1536×1024 $0.016
Medium: 1024×1024 $0.042 | 1024×1536 $0.063 | 1536×1024 $0.063
High: 1024×1024 $0.167 | 1024×1536 $0.25 | 1536×1024 $0.25

simonw

約9時間前

新しいモデルをこんな感じで試してみたよ：

OPENAI_API_KEY="$(llm keys get openai)"
uv run https://tools.simonwillison.net/python/openai_image.py
-m gpt-image-2
"Do a where's Waldo style image but it's where is the raccoon holding a ham radio"

コードはここ: https://github.com/simonw/tools/blob/main/python/openai_image.py

プロンプトの結果はこれ。アライグマがアマチュア無線機を持ってる絵にはなってないと思う（まあウォーリーを探せ系のテストって、根気よく探すのが面倒でチェックしきれないんだけどね）：https://gist.github.com/simonw/88eecc65698a725d8a9c1c918478ac41?permalink_comment_id=6112150#gistcomment-6112150

vunderba

約8時間前

OpenAIのgpt-image-1.5とGoogleのNB2は、プロンプトへの忠実度を重視した私の比較サイトだとほぼ互角で、どちらも生成・編集機能の成功率は70%前後をうろついてる感じ。ただしGeminiの方が常に視覚的な忠実度では一歩リードしてるっていう前提付きだけどね。

とはいえ、gpt-image-1.5はOpenAIにとって視覚品質の大きな飛躍だったし、前モデルにあった例の「黄色いフィルターがかかったような問題」のほとんどを解消した。GenAI Showdownの生成・編集チャートでgpt-image-2を試したら、またコメントを更新するよ。

NBが出てきてから、特にText-to-Imageのセクションはプロンプトの難易度をかなり上げざるを得なくなった。今だとトップクラスのモデルで70%前後、15個中11個を成功させるのがやっとだね。

参考までに、ByteDance、Google、OpenAIの編集パフォーマンス比較を置いておくよ：
https://genai-showdown.specr.net/image-editing?models=nbp3,s4,g15

こっちは生成パフォーマンスの比較：
https://genai-showdown.specr.net/?models=s4,nbp3,g15

更新情報：
・gpt-image-2は、テストスイートにあるいわゆる「モデル殺し」の一つ、「9つの頂点を持つ星」をすでに克服できたよ。

生成能力（Text-to-Image）の結果が出た：Gpt-image-2はベンチマークで15問中12問正解して、これまでトップだったモデルを1ポイント差で上回った。でも、以下のプロンプトはまだ失敗するね。

明るい色のサンゴヘビの写真。ただし赤、青、緑、紫、黄色のバンドを正確にその順番で繰り返すこと。
20面ダイス（D20）で、最初の20個の素数（2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71）が面に書かれているもの。
平らな円盤状の地球型惑星が、人で過密状態になっている様子。人々がギュウギュウ詰めで、惑星の端から溢れ落ちそうになっている。格安の「海岸沿い」物件あります、みたいな感じ。

全モデルの比較はこちら：
https://genai-showdown.specr.net

Gpt-Image-1.5、Gpt-Image-2、Nano-Banana 2、Seedream 4.0のみの比較はこちら：
https://genai-showdown.specr.net?models=s4,nbp3,g15,g2

swalsh

約6時間前

数時間使ってみたけど、正直かなり感動してる。実際に自分のやってる仕事で画像モデルの価値を感じたのはこれが初めて。PowerPointのスライドやモックアップ作成に使ってるんだけど、それがヤバいくらい上手い。

porphyra

約6時間前

中国語のテキスト描写の改善は驚異的で素晴らしい！ただ、無錫に関するサンプル画像の中国語にはまだいくつか誤字があったよ。例えば「小籠包」の「籠」の字が間違ってたり、「极小中文也清晰可读（極小の中国語もはっきり読める）」のセクションにはさらに誤字がある（それでも読めはするけど）。それでも、とてつもない進歩だね。以前のどんな画像生成モデルよりも遥かに優れてる。

skybrian

約6時間前

今回はピアノの鍵盤テストに合格したよ：
https://chatgpt.com/s/m_69e7ffafbb048191b96f2c93758e3e40

でも、中央のド（ミドルC）にラベルを貼ろうとしたらミスった：
https://chatgpt.com/s/m_69e8008ef62c8191993932efc8979e1e

追記：聞き直したらちゃんと修正してくれた。

madrox

約5時間前

画像ソースを確実に証明するための仕様、C2PAについて触れるにはいい機会だね。OpenAIもこれに参加してて、AIで生成した画像をC2PAビューアに読み込むとソースとしてChatGPTが表示される。

悪意のあるユーザーはソースを消して普通の画像に見せかけることもできる（だから「肯定的な証明」なんだよね）。でも将来的には、httpsじゃないサイトを警告するのと同じように、ソース属性がない画像は危険なものとして警告するようにしていくべきだね。

詳しくはここ：https://c2pa.org

minimaxir

約5時間前

Nano Banana Proの実験中、生成AIがヒューリスティックに従えるか、でもドメイン知識や検索ツールが必要になるような面白いプロンプトを書いてみたんだ：

全国図鑑番号が最初の64個の素数に対応するポケモンを8x8のグリッドに並べて生成して。サブ画像の間には黒い境界線を入れて。
サブ画像には以下のルールを強制する：

左上にポケモンの全国図鑑番号をラベルとして配置
ラベルには絶対に「#」を含めない
テキストは左揃え、白文字、Menloフォント
ラベルの塗りつぶしは黒
番号が1桁なら8ビットスタイルで表示
番号が2桁なら木炭画スタイルで表示
番号が3桁なら浮世絵スタイルで表示

NBPの結果がこれ。番号と対応するポケモン、スタイルは合ってた。主な争点は、スタイルの適用が雑なことと、画像が盗作の可能性があることかな：
https://cdn.bsky.app/img/feed_fullsize/plain/did:plc:oxaernim5mj2mmy3ytrvb42n/bafkreigussguihcycvzm3aaosw4gzvgwhibwmjiknkkatfcaeajapmrqca

同じプロンプトをgpt-2-imageのhighで回してみたら…面白いコントラストになった：
https://cdn.bsky.app/img/feed_fullsize/plain/did:plc:oxaernim5mj2mmy3ytrvb42n/bafkreidgbmtivl33ohwgbvylnvqzo2uz43zkuwu65cg42wkk7b7up7emje

こっちはより独創的なスタイルになってて、オリジナルっぽく見えるんだけど：

スタイルのロジックが行単位になってて、数字と一致してないから間違い
ポケモン自体が完全に間違ってるのがいくつもある
数字のフォントが違う
なぜか下が正方形になってない

なんとも不思議な結果だね。

neom

約5時間前

これがいつも画像生成モデルのテストに使ってる「高難度プロンプト」だよ：

「古い時計職人の手が、ヴィンテージの懐中時計の中で小さな歯車を慎重に交換しているマクロクローズアップ写真。時計の機構は透明な水が入った浅い皿に半分沈んでいて、真鍮の歯車に屈折と光のコースティクスが見える。ピンセットの先から水滴が一つ落ちていて、水面で跳ね返る瞬間を捉えている。時計職人の顔が、懐中時計の湾曲したガラス面に少し歪んで映り込んでいる。全体にピントが合っており、左側からの自然な窓明かり、100mmマクロレンズで撮影」

2つの画像のGoogleドライブリンク：https://drive.google.com/drive/folders/1-QAftXiGMnnkLJ2Je-ZHx6H3Md36zUbM

Web版とAPIの両方で何回か試したけど、どれもNano Bananaには遠く及ばないな。

（今まで使ってたファイル共有サービスがひどくなったから、今はとりあえずGoogleドライブに上げ直してる。すぐリンク更新するよ）