ディスカッション (10件)
OpenAIが発表した「ChatGPT Images 2.0」に関する情報です。詳細はこちらのライブストリームとシステムカードから確認できます。ライブストリーム: https://openai.com/live/ システムカード(PDF): https://deploymentsafety.openai.com/chatgpt-images-2-0/chatgpt-images-2-0.pdf
価格比較だよ:
GPT Image 2
Low: 1024×1024 $0.006 | 1024×1536 $0.005 | 1536×1024 $0.005
Medium: 1024×1024 $0.053 | 1024×1536 $0.041 | 1536×1024 $0.041
High: 1024×1024 $0.211 | 1024×1536 $0.165 | 1536×1024 $0.165
GPT Image 1
Low: 1024×1024 $0.011 | 1024×1536 $0.016 | 1536×1024 $0.016
Medium: 1024×1024 $0.042 | 1024×1536 $0.063 | 1536×1024 $0.063
High: 1024×1024 $0.167 | 1024×1536 $0.25 | 1536×1024 $0.25
新しいモデルをこんな感じで試してみたよ:
OPENAI_API_KEY="$(llm keys get openai)"
uv run https://tools.simonwillison.net/python/openai_image.py
-m gpt-image-2
"Do a where's Waldo style image but it's where is the raccoon holding a ham radio"
コードはここ: https://github.com/simonw/tools/blob/main/python/openai_image.py
プロンプトの結果はこれ。アライグマがアマチュア無線機を持ってる絵にはなってないと思う(まあウォーリーを探せ系のテストって、根気よく探すのが面倒でチェックしきれないんだけどね):https://gist.github.com/simonw/88eecc65698a725d8a9c1c918478ac41?permalink_comment_id=6112150#gistcomment-6112150
OpenAIのgpt-image-1.5とGoogleのNB2は、プロンプトへの忠実度を重視した私の比較サイトだとほぼ互角で、どちらも生成・編集機能の成功率は70%前後をうろついてる感じ。ただしGeminiの方が常に視覚的な忠実度では一歩リードしてるっていう前提付きだけどね。
とはいえ、gpt-image-1.5はOpenAIにとって視覚品質の大きな飛躍だったし、前モデルにあった例の「黄色いフィルターがかかったような問題」のほとんどを解消した。GenAI Showdownの生成・編集チャートでgpt-image-2を試したら、またコメントを更新するよ。
NBが出てきてから、特にText-to-Imageのセクションはプロンプトの難易度をかなり上げざるを得なくなった。今だとトップクラスのモデルで70%前後、15個中11個を成功させるのがやっとだね。
参考までに、ByteDance、Google、OpenAIの編集パフォーマンス比較を置いておくよ:
https://genai-showdown.specr.net/image-editing?models=nbp3,s4,g15
こっちは生成パフォーマンスの比較:
https://genai-showdown.specr.net/?models=s4,nbp3,g15
更新情報:
・gpt-image-2は、テストスイートにあるいわゆる「モデル殺し」の一つ、「9つの頂点を持つ星」をすでに克服できたよ。
生成能力(Text-to-Image)の結果が出た:Gpt-image-2はベンチマークで15問中12問正解して、これまでトップだったモデルを1ポイント差で上回った。でも、以下のプロンプトはまだ失敗するね。
- 明るい色のサンゴヘビの写真。ただし赤、青、緑、紫、黄色のバンドを正確にその順番で繰り返すこと。
- 20面ダイス(D20)で、最初の20個の素数(2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71)が面に書かれているもの。
- 平らな円盤状の地球型惑星が、人で過密状態になっている様子。人々がギュウギュウ詰めで、惑星の端から溢れ落ちそうになっている。格安の「海岸沿い」物件あります、みたいな感じ。
全モデルの比較はこちら:
https://genai-showdown.specr.net
Gpt-Image-1.5、Gpt-Image-2、Nano-Banana 2、Seedream 4.0のみの比較はこちら:
https://genai-showdown.specr.net?models=s4,nbp3,g15,g2
数時間使ってみたけど、正直かなり感動してる。実際に自分のやってる仕事で画像モデルの価値を感じたのはこれが初めて。PowerPointのスライドやモックアップ作成に使ってるんだけど、それがヤバいくらい上手い。
中国語のテキスト描写の改善は驚異的で素晴らしい!ただ、無錫に関するサンプル画像の中国語にはまだいくつか誤字があったよ。例えば「小籠包」の「籠」の字が間違ってたり、「极小中文也清晰可读(極小の中国語もはっきり読める)」のセクションにはさらに誤字がある(それでも読めはするけど)。それでも、とてつもない進歩だね。以前のどんな画像生成モデルよりも遥かに優れてる。
今回はピアノの鍵盤テストに合格したよ:
https://chatgpt.com/s/m_69e7ffafbb048191b96f2c93758e3e40
でも、中央のド(ミドルC)にラベルを貼ろうとしたらミスった:
https://chatgpt.com/s/m_69e8008ef62c8191993932efc8979e1e
追記:聞き直したらちゃんと修正してくれた。
画像ソースを確実に証明するための仕様、C2PAについて触れるにはいい機会だね。OpenAIもこれに参加してて、AIで生成した画像をC2PAビューアに読み込むとソースとしてChatGPTが表示される。
悪意のあるユーザーはソースを消して普通の画像に見せかけることもできる(だから「肯定的な証明」なんだよね)。でも将来的には、httpsじゃないサイトを警告するのと同じように、ソース属性がない画像は危険なものとして警告するようにしていくべきだね。
詳しくはここ:https://c2pa.org
Nano Banana Proの実験中、生成AIがヒューリスティックに従えるか、でもドメイン知識や検索ツールが必要になるような面白いプロンプトを書いてみたんだ:
全国図鑑番号が最初の64個の素数に対応するポケモンを8x8のグリッドに並べて生成して。サブ画像の間には黒い境界線を入れて。
サブ画像には以下のルールを強制する:
- 左上にポケモンの全国図鑑番号をラベルとして配置
- ラベルには絶対に「#」を含めない
- テキストは左揃え、白文字、Menloフォント
- ラベルの塗りつぶしは黒
- 番号が1桁なら8ビットスタイルで表示
- 番号が2桁なら木炭画スタイルで表示
- 番号が3桁なら浮世絵スタイルで表示
NBPの結果がこれ。番号と対応するポケモン、スタイルは合ってた。主な争点は、スタイルの適用が雑なことと、画像が盗作の可能性があることかな:
https://cdn.bsky.app/img/feed_fullsize/plain/did:plc:oxaernim5mj2mmy3ytrvb42n/bafkreigussguihcycvzm3aaosw4gzvgwhibwmjiknkkatfcaeajapmrqca
同じプロンプトをgpt-2-imageのhighで回してみたら…面白いコントラストになった:
https://cdn.bsky.app/img/feed_fullsize/plain/did:plc:oxaernim5mj2mmy3ytrvb42n/bafkreidgbmtivl33ohwgbvylnvqzo2uz43zkuwu65cg42wkk7b7up7emje
こっちはより独創的なスタイルになってて、オリジナルっぽく見えるんだけど:
- スタイルのロジックが行単位になってて、数字と一致してないから間違い
- ポケモン自体が完全に間違ってるのがいくつもある
- 数字のフォントが違う
- なぜか下が正方形になってない
なんとも不思議な結果だね。
これがいつも画像生成モデルのテストに使ってる「高難度プロンプト」だよ:
「古い時計職人の手が、ヴィンテージの懐中時計の中で小さな歯車を慎重に交換しているマクロクローズアップ写真。時計の機構は透明な水が入った浅い皿に半分沈んでいて、真鍮の歯車に屈折と光のコースティクスが見える。ピンセットの先から水滴が一つ落ちていて、水面で跳ね返る瞬間を捉えている。時計職人の顔が、懐中時計の湾曲したガラス面に少し歪んで映り込んでいる。全体にピントが合っており、左側からの自然な窓明かり、100mmマクロレンズで撮影」
2つの画像のGoogleドライブリンク:https://drive.google.com/drive/folders/1-QAftXiGMnnkLJ2Je-ZHx6H3Md36zUbM
Web版とAPIの両方で何回か試したけど、どれもNano Bananaには遠く及ばないな。
(今まで使ってたファイル共有サービスがひどくなったから、今はとりあえずGoogleドライブに上げ直してる。すぐリンク更新するよ)