r/bard🔥 64
💬 47

速報!Gemini 3、エージェント型コーディングでClaudeを圧倒!GPT-5.1登場はまだ?

WoodpeckerConstant64
9日前

ディスカッション (45件)

0
WoodpeckerConstant64OP👍 64
9日前

GPT-5.1はまだお目見えしていないので、史上最高のコーディングモデルかどうかは不明です。

(添付画像へのリンク)

1
Due_Mouse8946
9日前

嘘だろ… Claudeはトップモデルの77%を占めてるんだぜ。

2
Necessary-Oil-4489
👍59日前

最適化されたハーネスと追加の計算時間があれば、まあ、ありえるかもね。

そのエンドポイントをSWEベンチに提供して検証してもらうべきだ。

4
Helpful_Program_5473
👍89日前

「圧倒的なトップモデル」だって? Geminiよりたったの1%上なだけじゃん。Gemini 3は、エージェント的なコーディングでははるかに優れてるし、全体的に見ても、コードに特化した部分を除いてはるかに優れてる。コードに関してはほぼ互角だけどね。

5
Due_Mouse8946
9日前

まあ、コーディングはAIのナンバーワンの使用用途だからね。AIのクソみたいなものを作り出すことじゃないし…。

ただ言ってるだけだよ。だからこそ、Anthropicはエンタープライズ分野で圧倒的な強さを見せてるんだ。ただ言ってるだけだって。マジで。

gif

6
Helpful_Program_5473
👍49日前

Geminiリリースからたった2日じゃんw

7
Due_Mouse8946
9日前

しかも大惨事。

🤣

Samですら「良いモデルだね」って言って笑ってる。最高の侮辱だわ。

8
Helpful_Program_5473
👍39日前

マジでヤバい。GPT-4以来、一番のジャンプアップだわ。

9
Due_Mouse8946
9日前

それって単に2.5がクソだっただけじゃないの?

10
KnightNiwrem
👍39日前

厳密には嘘じゃないんだ。条件が違うだけ。Bash Onlyの公式リーダーボードでは、より公平な比較のために次の条件が適用されてるよ: https://www.swebench.com/bash-only.html

でも、プロバイダーのモデルカードで報告されてる%resolvedは、より良いスコアを得るために、公式の標準化された構成から逸脱することがあるんだ。例えば、Claude 4.5 Sonnetの補遺にはこう書いてある:

方法論

SWE-bench Verified: すべてのClaudeの結果は、bashと文字列置換によるファイル編集という2つのツールを使ったシンプルな足場を使って報告されました。500問のSWE-bench Verifiedデータセット全体で、テスト時の計算なし、20万の思考予算で、10回の試行で平均した77.2%を報告します。

  • 報告されたスコアは、「できるだけツールを使い、理想的には100回以上使うべきです。また、問題に取り組む前に、まず独自のテストを実装する必要があります。」というマイナーなプロンプトの追加を使用しています。

この異なる数値は異なる意味を持ち、異なる用途があるんだ。例えば、システムプロンプトの微調整がエージェントの結果を改善するための標準的な方法であると受け入れている場合、最大達成可能なパフォーマンスにより興味があるかもしれないし、最大可能な数値に興味があるかもしれない。一方、生の能力を公平に比較することを好み、一般的にシステムプロンプトを微調整しようとしない場合は、標準化された構成の結果により興味があるかもしれない。

11
Due_Mouse8946
👍29日前

Claudeはマジで最強。プロンプトが勝負の半分だからね。だから誰にも負けないんだ!2023年からずっとトップコーダーだよ。

12
WoodpeckerConstant64
👍19日前

GPT 5.1 Codex Maxに負けてたでしょ💀

13
Due_Mouse8946
👍19日前

検証済みのコーディングベンチマークでは負けてない💀

14
KnightNiwrem
👍19日前

もしプロバイダーのカスタム構成で得られた%resolvedで比較するなら、GPT-5.1 Codex MaxはSWE-Bench Verifiedで77.9%のスコアを出してて、Claude 4.5 Sonnetの77.2%より上じゃない?

15
Due_Mouse8946
9日前

マジかよ🤣 GPT 5はひどいもん。ベンチマークの最大化なんて意味ない。Claudeはフェアに戦って、それが実際のパフォーマンスに現れてる。全然レベルが違う。

Claude EnterpriseとGPT Enterprise両方持ってるけどね!:D 俺はすごいんだぞ。Claudeの方が圧倒的に優れてる。マジで話にならないくらいにね!:(

16
Correctsmorons69
👍29日前

お前は大物じゃない。

18
dsanft
👍39日前

自慢するなら、Mi50を14個持ってるぜ...

19
Dramatic-Adagio-2867
9日前

マジかよ、AnthropicがGoogleを出し抜いてるなんて。Geminiを試してみたけど、CCドーパミンを求めてさまようスパイディのコードセンスが働いちまった。

マジでGoogleなんかくそくらえだ。

20
Playful-Variation908
👍49日前

笑える、英語が母国語じゃないけど、これを読んでマジで頭が悪くなった気分だ。

21
Dramatic-Adagio-2867
9日前

それが狙いだったんだ。

22
White_Crown_1272
👍89日前

ありえない。俺の経験では、ClaudeとCodexの方がまだ上だね。Codexの方が優れてる。

23
WoodpeckerConstant64
👍49日前

Codexモデルについて投稿で言及したけど、正直言ってすごく良いんだよね。でも、OpenAIが他のモデルとの比較を難しくしてるんだ。Claudeに関しては、Private Swe Benchを除いて、Geminiの方が完全に優れてると思う。でも、Gemini AntigravityもClaudeを持ってるから、そこまで競合してないし、ClaudeはどんなIDEでも不可欠だ。編集:OpenAIはGPT 5.1を他のモデルと比較しにくくしたわけじゃないよ。

24
WoodpeckerConstant64
👍19日前

ああ、ごめん。GPT 5.1 Codex Maxはマジですごいんだけど、なぜかGitHub Copilotでは使えないんだよね。理由わかる?

25
KnightNiwrem
👍29日前

OpenAIがCodex MaxのAPIアクセスを提供してないからだよ。今はCodex CLIとかIDE拡張機能とかの公式のインターフェースでしか使えない。

26
WoodpeckerConstant64
👍19日前

へー、そうなんだ。

27
New-Pea4575
👍19日前

使ってみた?良くないでしょ。

28
WoodpeckerConstant64
👍19日前

GPT 5.1 codex maxは、僕のGitHub CopilotのCLIでは利用できないんだ。

29
Electronic_Shift_845
👍259日前

GeminiのCLIがClaude codeやCodexに全然及ばないのが残念。Gemini 3自体はマジで良いのに、ツールがね…

30
WoodpeckerConstant64
👍59日前

そうそう、IDEユーザーだからめっちゃ楽しみ。

32
jakeblakeley
👍39日前

試してみた? まだまだ粗削りで、バグだらけだよ。

33
Electronic_Shift_845
👍29日前

正直言うと、CLIツールじゃなくてカスタムIDEが好きじゃないんだよね。だからCursorも好きじゃない。Antigravityも試したけど、まだイマイチだね。

34
WoodpeckerConstant64
👍19日前

GitHub Copilot CLIは試した?

35
exoticsclerosis
👍19日前

やっぱりCodexを使ってる理由はこれなんだよね。

36
randombsname1
9日前

うーん。まだCCには遠く及ばないな。

どうしてもCCから離れられない。

Claudeが一時的にダメになった時にCodexをちょっと試したけど、次の月にはすぐに戻ったわw

37
WoodpeckerConstant64
👍19日前

GitHub CopilotにはCLIがあるけど、代替になるかもね。

38
DeliciousReport6442
👍19日前

同じハーネスでコーディングエージェントを比較するのは意味ないよ。AnthropicとOpenAIは、RLで自社のハーネスを使ってモデルをトレーニングしてるはず。だから、それらの足場(scaffolding)でパフォーマンスが良いんだよ。結局、ユーザーが得るのはモデルとハーネスの合計なんだから。特定のハーネスでパフォーマンスが良いからって、何の意味もない。

39
ClerkEmbarrassed371
👍69日前

Claude CodeにGemini 3のバックエンドは、マジで調子が良い。的確だし、完璧だよ。

40
ClerkEmbarrassed371
👍49日前

もし試してみたい人がいれば、liteLLM proxyについて調べてみるといいよ。

41
Elenesski
👍19日前

正直、どのテーブルが優れてるか議論するのは自由だけど、実際にAIを現場で使ってみないと、その実力はわかんないよね。Sonnet 4.5が最高だって言われてたけど、すぐにおかしな方向に暴走することがあったし。エージェントを使えばAI自身で間違いを修正できるけど、そのせいで無駄なAPIコールがめっちゃ増えちゃうんだよね。

42
outfinitism
👍29日前

OpenCode CLIエージェントをいろんなLLMで試してみたんだけど、個人的にはGemini CLIとかCodexよりOpenCodeの方が良い感じ。CCは古い分だけ洗練されてるのかもしれないけど、Gemini 3.0みたいな良いモデルを使えば、差はほんのわずかだよ。

43
Kurdonoid
👍19日前

Claudeは決して複雑にしすぎない。
いや、結構。俺はクリーンで堅牢なコードが好きだから。

44
Outside_Reindeer_713
👍18日前

Claudeが一番。