ディスカッション (42件)
このリンクで500 Internal Server Errorが出てる人いる?
いるよ
マジか、ちょうど明日クレジットが切れるってのに 😅😅
GPT-5.1はゴミすぎたから、GPT-5とGPT-5 Codexに戻したわ。4月の3.7 Sonnetより酷かった。
これで少しはマシになるかな。
問題はモデルじゃなくて、君の方だよ。ベンチマークでも、他の普通のコーダーの成功例でも分かるように、5.1は優秀だよ。
俺も上手くいってないんだよね。そういう可能性もあると思って試してるんだけど、どこが悪いのか分からない。最初はgpt-5.1に切り替えて、最近gpt-5-codexにした。こっちの方がずっと安定してる気がする。
ほんとそれな。コーディングに関しては、まだgpt3.5-turboより優れたモデルを見つけられてない。
それ言うってことは、君が何も分かってないってことの証明だわ。
言っておきたいのは、特にHTML、CSSなどの新規プロジェクトに関しては、これはマジだってこと。GPT-5-mediumの方が良かった。バックエンドのロジックや既存のプロジェクトに関しては、今のところかなり安定してる。今日、GPT-5.1-codexで既存のプロジェクトを集中してやったよ(いいね!)。昨日は新しいプロジェクトでやったけど(結果はダメだった)。
詳細はこちら: https://www.reddit.com/r/codex/comments/1p0r749/are_you_getting_better_results_with_51_in_codex/
そうなんだよね、調子がいい時もあれば悪い時もある。同じプロンプトでもね。その一貫性のなさにイライラするんだ。
8月上旬から毎日、一日中Codexを使ってるけど、マジで不安定だよ。
つまり、token efficientで、より良い結果のために思考tokenの使用量を減らすってことまでは理解できたんだけど、Codex highより使用量が高いのか低いのかがいまいち分からんのよね。「max」って名前からすると、やっぱり高い気がするんだけど?あと、なんでCodex mediumを推奨してるんだろ?
「レイテンシが重要でないタスク向けに、さらに長い時間かけてより良い答えを出す新しいExtra High('xhigh')推論も導入します。ほとんどのタスクでは、引き続きmediumを普段使いとして推奨します。」
より速く、より安価ってことかな。
いいね、それ最高じゃん。両方のニーズがあるのは確かだ。「特定のやり方でファイルを整理するスクリプトを書いて」みたいな、考えなしに速く済ませたい怠惰な作業がたくさんあるんだ。
それとは別に、「昨日公開されたばかりの理論研究論文を、俺の特定のユースケースに合わせて、追加機能付きで実装する必要がある」みたいな場合もある。レイテンシとかコストとかマジでどうでもよくて、最小限のバカなミスをしてほしいんだ。
彼らはmediumの推論にはcodexじゃなくてcodex-maxを推奨してるよ。
それに、以前のCodexモデルよりもモデルの思考効率が上がってる、つまり全体的なトークン使用量が減るって言ってる。彼らは、このモデルを使えば開発者のコストを削減しながら、パフォーマンスを向上させることができると考えてるって言ってたよ
今回のチャートと、GPT-5 Codexの紹介記事のチャートを比較してみて。もし間違ってたら指摘してほしいんだけど、GPT-5.1 CodexってGPT-5 CodexよりもSWEベンチマークのスコアが低くない?俺の目が悪いのか、データがそうなってるのか。
Codex 5.1は73.8とかだった気がする。
比較のためにOpenAIの5 Codexのブログ記事を見てみて。5 Codex Highは74.5%だよ。
つまり…結局全部同じってこと?それとも1%って結構違うの?
ベンチマークで1%の違いなんて大したことないから、実際に使ってみてどう感じるか試すべきだよ。
ベンチマークの結果を鵜呑みにするのは危険だよ。ああいうベンチって、実際には全然実用的じゃなかったり、ありえない設定だったりすることもあるからね。
VSCのエクステンションでもう使える?
まだ見てないなぁ :(
ちょっと手間だけど、open-vsx.orgに行ってみて。codexを検索してパッケージ0.4.44をダウンロード。VSCのマーケットプレイスの上にある拡張機能の横の三点リーダーをクリック。VSIXからインストールを選択。
なぜかマーケットプレイスから直接インストールできなかったけど、これでうまくいったよ。
うん。
間違いなく速くなってるけど、時々、彼自身が反対してたことを実装しようとしてることに気づいた。元々作った計画に「固執」しすぎて、ハルシネーションを起こしやすいみたい?
例のデザインだけを見ると、前のバージョンの方が好きだな。もっとモダンで新鮮な感じがする。
GPT-5.1-Codex-Max = バグのないCodex 5.1、つまり当初約束された5.1バージョン。
証拠は?OpenAIは、GPT-5.1-Codex-Maxを現在のモデルとして設定し、リリースから1週間後にデフォルトの5.1をGPT-5.1-Codex-Maxに変更すると言ってた。
俺はまだIDE拡張機能付きのcodexじゃないバージョンを使ってるけど、満足してるよ。
max-extra-highは試してないけど、codex-max-highは(俺のAgent Sessionsメニューバーの制限追跡に基づいた主観だけど)、5.1-high(codexじゃない方)より少しだけ早く制限に達するみたい。
以前の命名規則の失敗から学んでほしいもんだ… gpt 5.1 codex max xhigh 🤔
これがウェブにどう影響するのかよくわからない。今日「新しいモデルを試す」ってポップアップが出てきてOKをクリックしたんだけど、ウェブでモデルを設定する場所がないんだよね。だから、それが使われるのか、気に入らなかったらどうやって元に戻すのかわからない。そもそも本当に選択肢があったのかどうかも怪しいけど。
GPT-5.1-codex-maxとGPT 5.0/5.1を比較した人いる?
精度と安定性が欲しいだけで、最初の数回で正解する可能性が高いならトークンコストは気にしない。
1週間悩まされてたバックエンドの保存/同期の問題をようやく解決できたんだけど、面白いことに気づいた。Gemini、Claude、5.1、Codex High、5.0は全部ダメだったんだよね。Firebaseのデータにあるダッシュ構文のエラーのせいだって、堂々巡りしてた。全然的外れだったのに。GPT 5.1 MAX Highは、リスナーを書き換えて、大規模なエディターモーダルをリファクタリングして、一発で直してくれた。
これはCLI - VScodeでの話。
今のところ気に入ってるよ。5.1 codex midのタスクから、maxに切り替えただけで、速度と品質の違いに気づいた。プランニング系の処理だと、速度の差がかなり大きいね。
codex-mini-xhigh-max-proを待ってるぜ。
…giga ultraだってさ。
CLIセッションで5時間フルに使ってみたけど、もう週の利用量の25%も消費しちゃった。週に4回5時間セッションやるくらいじゃ大したことないし、今月に入ってから色々いじり始めた時と同じ消費率なんだよね。
全体的に、何も節約できてないからちょっとがっかり。ただ、モデル自体は、ちょこっと試した感じだと良さそうだけど。
みんなが求めてたのはこれだよ:モデルプロバイダーへのコスト削減。
今日一日中、このモデル5-1-codex-maxをウルトラハイ設定でコーディングしてたんだけど、マジすごい。他のバージョンより格段に良くなってる。まだ丸一日、複数のセッションでコーディングしただけだけど、確実に改善されてるよ。
落ち着けって、マジで。新しいモデル出すぎなんだよ。
マジでヤバい。発表に気づかずに、プロジェクトを続けてたら、「お、新しいモデルだ」って思って選んでみたんだ。
バックエンドAPIとフロントエンドGUIの機能をどうやって組み合わせるか教えてもらったんだけど、何らかのコーディング計画が出てくると思ってた。そしたら、いきなり本気出したんだよ。
何千件もの承認リクエストを避けるために、yoloモードで実行してるんだけど、APIドキュメントを調べて、テストコールを実行して、データテーブルを構造化して、GUIを生成したんだ。
こんな風に、モデルが機能を一発で完成させたのは初めてだし、ましてや実行するように頼んでないのに。
コードを調べたら、クリーンアップする項目がいくつかあるだけで、うまく実行されてたし、APIキーをソースコードにそのまま突っ込むっていういつものヘマもなかった。
良い経験はこれだけかもしれないけど、今のところ、どのコーディングモデルにもこれほど圧倒されたことはないよ。
はい、推測タイム!
Maxが完全に新しい、より大きなモデルだとはちょっと思えないんだよね。そんなの急に出てくるわけないし、Proが並列化モデルだってことを考えると、GPT-5より大きいものはないはず。
それに、Codex CLIからすぐに5.0を削除したってことは、計算資源とコストを節約したいってことだよね、明らかに。
だから、gpt-5.1-codexはgpt-5-codexの後のスナップショットだけど、出来が良すぎて感動したから、量子化/プルーニングしたんだと思う。同じことがgpt-5.1にも当てはまるんじゃないかな。
gpt-5.1-codex-maxはおそらく実際のgpt-5.1-codexで、需要の増加と限られたリソースのために、より高い価格で販売できるようになったってこと。
でも、しくじったんだよね。gpt-5.1-codexはベンチマークでは同等だけど、実際のパフォーマンスは当たり外れがあるんだ。