ディスカッション (45件)
GPT-5.1はまだお目見えしていないので、史上最高のコーディングモデルかどうかは不明です。
(添付画像へのリンク)
嘘だろ… Claudeはトップモデルの77%を占めてるんだぜ。
最適化されたハーネスと追加の計算時間があれば、まあ、ありえるかもね。
そのエンドポイントをSWEベンチに提供して検証してもらうべきだ。
グーグル自身からの情報だよ。💀 消えろ
Claudeは今年ずっと77%なんだ。圧倒的なコーディングモデルだよ。ベンチマークだけじゃなくて、実際のコーディングでもね。
「圧倒的なトップモデル」だって? Geminiよりたったの1%上なだけじゃん。Gemini 3は、エージェント的なコーディングでははるかに優れてるし、全体的に見ても、コードに特化した部分を除いてはるかに優れてる。コードに関してはほぼ互角だけどね。
まあ、コーディングはAIのナンバーワンの使用用途だからね。AIのクソみたいなものを作り出すことじゃないし…。
ただ言ってるだけだよ。だからこそ、Anthropicはエンタープライズ分野で圧倒的な強さを見せてるんだ。ただ言ってるだけだって。マジで。
Geminiリリースからたった2日じゃんw
しかも大惨事。
🤣
Samですら「良いモデルだね」って言って笑ってる。最高の侮辱だわ。
マジでヤバい。GPT-4以来、一番のジャンプアップだわ。
それって単に2.5がクソだっただけじゃないの?
厳密には嘘じゃないんだ。条件が違うだけ。Bash Onlyの公式リーダーボードでは、より公平な比較のために次の条件が適用されてるよ: https://www.swebench.com/bash-only.html
でも、プロバイダーのモデルカードで報告されてる%resolvedは、より良いスコアを得るために、公式の標準化された構成から逸脱することがあるんだ。例えば、Claude 4.5 Sonnetの補遺にはこう書いてある:
方法論
SWE-bench Verified: すべてのClaudeの結果は、bashと文字列置換によるファイル編集という2つのツールを使ったシンプルな足場を使って報告されました。500問のSWE-bench Verifiedデータセット全体で、テスト時の計算なし、20万の思考予算で、10回の試行で平均した77.2%を報告します。
- 報告されたスコアは、「できるだけツールを使い、理想的には100回以上使うべきです。また、問題に取り組む前に、まず独自のテストを実装する必要があります。」というマイナーなプロンプトの追加を使用しています。
この異なる数値は異なる意味を持ち、異なる用途があるんだ。例えば、システムプロンプトの微調整がエージェントの結果を改善するための標準的な方法であると受け入れている場合、最大達成可能なパフォーマンスにより興味があるかもしれないし、最大可能な数値に興味があるかもしれない。一方、生の能力を公平に比較することを好み、一般的にシステムプロンプトを微調整しようとしない場合は、標準化された構成の結果により興味があるかもしれない。
Claudeはマジで最強。プロンプトが勝負の半分だからね。だから誰にも負けないんだ!2023年からずっとトップコーダーだよ。
GPT 5.1 Codex Maxに負けてたでしょ💀
検証済みのコーディングベンチマークでは負けてない💀
もしプロバイダーのカスタム構成で得られた%resolvedで比較するなら、GPT-5.1 Codex MaxはSWE-Bench Verifiedで77.9%のスコアを出してて、Claude 4.5 Sonnetの77.2%より上じゃない?
マジかよ🤣 GPT 5はひどいもん。ベンチマークの最大化なんて意味ない。Claudeはフェアに戦って、それが実際のパフォーマンスに現れてる。全然レベルが違う。
Claude EnterpriseとGPT Enterprise両方持ってるけどね!:D 俺はすごいんだぞ。Claudeの方が圧倒的に優れてる。マジで話にならないくらいにね!:(
お前は大物じゃない。
自慢するなら、Mi50を14個持ってるぜ...
マジかよ、AnthropicがGoogleを出し抜いてるなんて。Geminiを試してみたけど、CCドーパミンを求めてさまようスパイディのコードセンスが働いちまった。
マジでGoogleなんかくそくらえだ。
笑える、英語が母国語じゃないけど、これを読んでマジで頭が悪くなった気分だ。
それが狙いだったんだ。
ありえない。俺の経験では、ClaudeとCodexの方がまだ上だね。Codexの方が優れてる。
Codexモデルについて投稿で言及したけど、正直言ってすごく良いんだよね。でも、OpenAIが他のモデルとの比較を難しくしてるんだ。Claudeに関しては、Private Swe Benchを除いて、Geminiの方が完全に優れてると思う。でも、Gemini AntigravityもClaudeを持ってるから、そこまで競合してないし、ClaudeはどんなIDEでも不可欠だ。編集:OpenAIはGPT 5.1を他のモデルと比較しにくくしたわけじゃないよ。
ああ、ごめん。GPT 5.1 Codex Maxはマジですごいんだけど、なぜかGitHub Copilotでは使えないんだよね。理由わかる?
OpenAIがCodex MaxのAPIアクセスを提供してないからだよ。今はCodex CLIとかIDE拡張機能とかの公式のインターフェースでしか使えない。
へー、そうなんだ。
使ってみた?良くないでしょ。
GPT 5.1 codex maxは、僕のGitHub CopilotのCLIでは利用できないんだ。
GeminiのCLIがClaude codeやCodexに全然及ばないのが残念。Gemini 3自体はマジで良いのに、ツールがね…
そうそう、IDEユーザーだからめっちゃ楽しみ。
反重力を使え
試してみた? まだまだ粗削りで、バグだらけだよ。
正直言うと、CLIツールじゃなくてカスタムIDEが好きじゃないんだよね。だからCursorも好きじゃない。Antigravityも試したけど、まだイマイチだね。
GitHub Copilot CLIは試した?
やっぱりCodexを使ってる理由はこれなんだよね。
うーん。まだCCには遠く及ばないな。
どうしてもCCから離れられない。
Claudeが一時的にダメになった時にCodexをちょっと試したけど、次の月にはすぐに戻ったわw
GitHub CopilotにはCLIがあるけど、代替になるかもね。
同じハーネスでコーディングエージェントを比較するのは意味ないよ。AnthropicとOpenAIは、RLで自社のハーネスを使ってモデルをトレーニングしてるはず。だから、それらの足場(scaffolding)でパフォーマンスが良いんだよ。結局、ユーザーが得るのはモデルとハーネスの合計なんだから。特定のハーネスでパフォーマンスが良いからって、何の意味もない。
Claude CodeにGemini 3のバックエンドは、マジで調子が良い。的確だし、完璧だよ。
もし試してみたい人がいれば、liteLLM proxyについて調べてみるといいよ。
正直、どのテーブルが優れてるか議論するのは自由だけど、実際にAIを現場で使ってみないと、その実力はわかんないよね。Sonnet 4.5が最高だって言われてたけど、すぐにおかしな方向に暴走することがあったし。エージェントを使えばAI自身で間違いを修正できるけど、そのせいで無駄なAPIコールがめっちゃ増えちゃうんだよね。
OpenCode CLIエージェントをいろんなLLMで試してみたんだけど、個人的にはGemini CLIとかCodexよりOpenCodeの方が良い感じ。CCは古い分だけ洗練されてるのかもしれないけど、Gemini 3.0みたいな良いモデルを使えば、差はほんのわずかだよ。
Claudeは決して複雑にしすぎない。
いや、結構。俺はクリーンで堅牢なコードが好きだから。
Claudeが一番。