ディスカッション (11件)
GPT-5.5の登場が噂されています。一体どのような進化が期待できるのでしょうか。
今回の発表で「ベンチマークスコアが向上した」という点よりも興味深いのはここだね:
GPUをより効率的に活用するため、Codexは数週間分の実働トラフィックパターンを分析し、タスクのパーティショニングと負荷分散を最適化する独自のヒューリスティックアルゴリズムを作成した。この取り組みは絶大な効果を発揮し、トークン生成速度を20%以上向上させた。
エージェント型LLMが計算効率や速度を自ら改善できるというのは、ベンチマークスコア以上に注目すべき極めて影響力の大きい分野だと思う。自分の経験上、この点に関してはまだOpusの方がGPT/Codexより遥かに優れているけれど、OpenAIがこうしたパフォーマンス改善で実利を得ていて、コストやキャパシティの問題から今後も最適化を進める動機が強まっていることを考えると、OpenAIがどこまで突き詰めていくのか楽しみだ。
CodexとGPTモデルで構築した3Dダンジョンアリーナのプレイアブルプロトタイプ。ゲームのアーキテクチャ、TypeScript/Three.jsの実装、戦闘システム、敵とのエンカウント、HUDフィードバックなどはすべてCodexが担当し、GPTが環境テクスチャを生成。キャラモデル、テクスチャ、アニメーションは外部の資産生成ツールで作成されたもの。
このプロンプトで生成されたゲーム、見た目はかなり良い感じだね。メッシュに関しては(おそらくmeshyやtripo.aiなどを使って)別のツールで作成し、5.5自身で生成したわけではないことが成功の大きな要因だろう。
Flashの夜明けに近い時代が来ているように感じる。どんなゲーマーや趣味人でもゲームのコンセプトをすぐに生成して、Web上に即公開できるような時代だ。特にThree.jsは、ゲームエンジンですらない単なるWebレンダリングライブラリにもかかわらず、AIでゲームを設計する際のメインストリームとして定着しつつあるね。
念のため伝えておくと、今日GPT-5.5がリリースされたけれど、ChatGPTとCodexへの展開はサービスを安定させるために数時間かけて順次行われるよ(前回までのローンチと同じ方式だ)。すぐに反映されていなくても、時間が経ってからもう一度試してみて。基本的にはProやEnterpriseアカウントから順に、Plusへと拡大していく予定。待ち時間が予測できないのは少しイライラするかもしれないけど、最大限の安定性を保つための対応なので理解してほしい。
(OpenAIの中の人より)
みんな、このページのこのセクションに注目してほしい:
5.3、5.4、5.5の間の「ローカルメッセージ」の制限数に注目。リンク先の記事は読んだし、5.5の効率向上で5.4と同等になるっていう主張も知っているけれど、結局は「制限が厳しくなる、または実質的な値上げ」という事実に変わりはないでしょ。
AnthropicがCyberGymで83%というスコアを出したMythosモデルを「限定公開」したのは完全にマーケティング用の仕掛けだったけど、OpenAIは誰でも使えるGPT-5.5を投下してきてスコアは82%。
サイバーセキュリティの攻撃側・防御側の両方にいる人はぜひ実験してみてほしい。これこそが誇大広告なしの、本当に必要な実データだよ。
まさか自分がこんなことを言う日が来るとは思わなかったけど、OpenAIが再び「オープン」な選択肢になったね。
このモデルは長期的なタスクで本領を発揮するし、Codexにはハートビート機能が付いたから状態確認も継続できる。検証可能な制約を伴う、何時間もかかるような最難関の課題を投げてみてよ。どれだけ優秀かすぐにわかるはず:)
*OpenAIの中の人より
Mythos 5.5
SWE-bench Pro 77.8%* 58.6%
Terminal-bench-2.0 82.0% 82.7%*
GPQA Diamond 94.6%* 93.6%
H. Last Exam 56.8%* 41.4%
H. Last Exam (tools) 64.7%* 52.2%
BrowseComp 86.9% 84.4% (90.1% Pro)*
OSWorld-Verified 79.6%* 78.7%
SWE-benchではまだMythosに遠く及ばないけど、それ以外はかなり良い勝負だね。
Mythosのソース: https://www.anthropic.com/glasswing
まだAPIアクセスは解放されていないけれど、OpenAIは最近OpenClawで使われているCodex APIのバックドアを黙認しているようだね…… https://twitter.com/steipete/status/2046775849769148838 と https://twitter.com/romainhuet/status/2038699202834841962
そしてそのバックドアAPI経由でGPT-5.5が使える。
というわけで、ペリカンを生成してみた: https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-pelicans
LLM用の新しいプラグインを使ったよ: https://github.com/simonw/llm-openai-via-codex
更新:推論努力(reasoning effort)を「xhigh」に設定したら、かなり精度の高いペリカンが生成できた: https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602cc5?permalink_comment_id=6115759#gistcomment-6115759
残念ながらハルシネーション(幻覚)率が86%とまだかなり高い。比較対象として、Opusは36%だからね。
NVIDIAのあるエンジニアは早期アクセスモデルを使ってこう言った。「GPT-5.5が使えなくなるなんて、手足を切断されるのと同じ感覚だ」
この引用は、当初の意図よりも恐ろしい意味を含んでいると思う。おそらく最先端のコーディングモデルすべてに当てはまることだろう。性能が上がるにつれ、私たちはあっという間にコーディングをモデルに依存するようになる。「ゴッドモード」でゲームをプレイしているような感覚だ。エンジニアは依存症になり、本当に中毒性がある。
これは私自身の経験であり、こうしたツールに対する不安そのものだ。最近はもう手動でコードを書く忍耐力がなくなってしまった。最先端モデルを使えば10倍速く一発で書けるからだ。自分の役割は変わってしまった。これほど短時間で多くの成果を出せるのは素晴らしいことだけれど、もしトークンが切れてモデルが使えなくなったら、私には何もできなくなるという事実がある。
Claudeがダウンしたときに、自力でコードを書こうとするよりも、散歩にでも行った方がレバレッジが高いという状態だ。戻ってきてClaudeが動いていれば、LLMが書いたコードの解読に頭を悩ませながら手動で問題を解こうとするよりも、遥かに効率よく進捗が出るからね。
とにかく、こうした状況にはどうにも居心地の悪さを感じる。言いたいのはそれだけだ。