r/bard🔥 64

💬 47

速報！Gemini 3、エージェント型コーディングでClaudeを圧倒！GPT-5.1登場はまだ？

WoodpeckerConstant64

3か月前

ディスカッション (45件)

WoodpeckerConstant64OP👍 64

3か月前

GPT-5.1はまだお目見えしていないので、史上最高のコーディングモデルかどうかは不明です。

(添付画像へのリンク)

Due_Mouse8946

3か月前

嘘だろ… Claudeはトップモデルの77%を占めてるんだぜ。

Necessary-Oil-4489

👍53か月前

返信先:>>1

最適化されたハーネスと追加の計算時間があれば、まあ、ありえるかもね。

そのエンドポイントをSWEベンチに提供して検証してもらうべきだ。

Due_Mouse8946

3か月前

返信先:>>2

https://preview.redd.it/w9ixe38hpn2g1.jpeg?width=1260&format=pjpg&auto=webp&s=97e5654042101bc515ef4c6b711dfaab7b406211

グーグル自身からの情報だよ。💀 消えろ

Claudeは今年ずっと77%なんだ。圧倒的なコーディングモデルだよ。ベンチマークだけじゃなくて、実際のコーディングでもね。

Helpful_Program_5473

👍83か月前

返信先:>>3

「圧倒的なトップモデル」だって？ Geminiよりたったの1%上なだけじゃん。Gemini 3は、エージェント的なコーディングでははるかに優れてるし、全体的に見ても、コードに特化した部分を除いてはるかに優れてる。コードに関してはほぼ互角だけどね。

Due_Mouse8946

3か月前

返信先:>>4

まあ、コーディングはAIのナンバーワンの使用用途だからね。AIのクソみたいなものを作り出すことじゃないし…。

ただ言ってるだけだよ。だからこそ、Anthropicはエンタープライズ分野で圧倒的な強さを見せてるんだ。ただ言ってるだけだって。マジで。

gif

Helpful_Program_5473

👍43か月前

返信先:>>5

Geminiリリースからたった2日じゃんw

Due_Mouse8946

3か月前

返信先:>>6

しかも大惨事。

🤣

Samですら「良いモデルだね」って言って笑ってる。最高の侮辱だわ。

Helpful_Program_5473

👍33か月前

返信先:>>7

マジでヤバい。GPT-4以来、一番のジャンプアップだわ。

Due_Mouse8946

3か月前

返信先:>>8

それって単に2.5がクソだっただけじゃないの？

KnightNiwrem

👍33か月前

返信先:>>1

厳密には嘘じゃないんだ。条件が違うだけ。Bash Onlyの公式リーダーボードでは、より公平な比較のために次の条件が適用されてるよ: https://www.swebench.com/bash-only.html

でも、プロバイダーのモデルカードで報告されてる%resolvedは、より良いスコアを得るために、公式の標準化された構成から逸脱することがあるんだ。例えば、Claude 4.5 Sonnetの補遺にはこう書いてある:

方法論

SWE-bench Verified: すべてのClaudeの結果は、bashと文字列置換によるファイル編集という2つのツールを使ったシンプルな足場を使って報告されました。500問のSWE-bench Verifiedデータセット全体で、テスト時の計算なし、20万の思考予算で、10回の試行で平均した77.2%を報告します。

報告されたスコアは、「できるだけツールを使い、理想的には100回以上使うべきです。また、問題に取り組む前に、まず独自のテストを実装する必要があります。」というマイナーなプロンプトの追加を使用しています。

この異なる数値は異なる意味を持ち、異なる用途があるんだ。例えば、システムプロンプトの微調整がエージェントの結果を改善するための標準的な方法であると受け入れている場合、最大達成可能なパフォーマンスにより興味があるかもしれないし、最大可能な数値に興味があるかもしれない。一方、生の能力を公平に比較することを好み、一般的にシステムプロンプトを微調整しようとしない場合は、標準化された構成の結果により興味があるかもしれない。

Due_Mouse8946

👍23か月前

返信先:>>10

Claudeはマジで最強。プロンプトが勝負の半分だからね。だから誰にも負けないんだ！2023年からずっとトップコーダーだよ。

WoodpeckerConstant64

👍13か月前

返信先:>>11

GPT 5.1 Codex Maxに負けてたでしょ💀

Due_Mouse8946

👍13か月前

返信先:>>12

検証済みのコーディングベンチマークでは負けてない💀

KnightNiwrem

👍13か月前

返信先:>>13

もしプロバイダーのカスタム構成で得られた%resolvedで比較するなら、GPT-5.1 Codex MaxはSWE-Bench Verifiedで77.9%のスコアを出してて、Claude 4.5 Sonnetの77.2%より上じゃない？

Due_Mouse8946

3か月前

返信先:>>14

マジかよ🤣 GPT 5はひどいもん。ベンチマークの最大化なんて意味ない。Claudeはフェアに戦って、それが実際のパフォーマンスに現れてる。全然レベルが違う。

Claude EnterpriseとGPT Enterprise両方持ってるけどね！:D 俺はすごいんだぞ。Claudeの方が圧倒的に優れてる。マジで話にならないくらいにね！:(

Correctsmorons69

👍23か月前

返信先:>>15

お前は大物じゃない。

Due_Mouse8946

👍13か月前

返信先:>>16

https://preview.redd.it/fzrafb03do2g1.png?width=1328&format=png&auto=webp&s=ffe2c3ed709da33c415e21e026d0ca7a369d8767

本当にそう思ってる？

dsanft

👍33か月前

返信先:>>17

自慢するなら、Mi50を14個持ってるぜ...

Dramatic-Adagio-2867

3か月前

マジかよ、AnthropicがGoogleを出し抜いてるなんて。Geminiを試してみたけど、CCドーパミンを求めてさまようスパイディのコードセンスが働いちまった。

マジでGoogleなんかくそくらえだ。

Playful-Variation908

👍43か月前

返信先:>>19

笑える、英語が母国語じゃないけど、これを読んでマジで頭が悪くなった気分だ。

Dramatic-Adagio-2867

3か月前

返信先:>>20

それが狙いだったんだ。

White_Crown_1272

👍83か月前

ありえない。俺の経験では、ClaudeとCodexの方がまだ上だね。Codexの方が優れてる。

WoodpeckerConstant64

👍43か月前

返信先:>>22

Codexモデルについて投稿で言及したけど、正直言ってすごく良いんだよね。でも、OpenAIが他のモデルとの比較を難しくしてるんだ。Claudeに関しては、Private Swe Benchを除いて、Geminiの方が完全に優れてると思う。でも、Gemini AntigravityもClaudeを持ってるから、そこまで競合してないし、ClaudeはどんなIDEでも不可欠だ。編集：OpenAIはGPT 5.1を他のモデルと比較しにくくしたわけじゃないよ。

WoodpeckerConstant64

👍13か月前

返信先:>>23

ああ、ごめん。GPT 5.1 Codex Maxはマジですごいんだけど、なぜかGitHub Copilotでは使えないんだよね。理由わかる？

KnightNiwrem

👍23か月前

返信先:>>24

OpenAIがCodex MaxのAPIアクセスを提供してないからだよ。今はCodex CLIとかIDE拡張機能とかの公式のインターフェースでしか使えない。

WoodpeckerConstant64

👍13か月前

返信先:>>25

へー、そうなんだ。

New-Pea4575

👍13か月前

返信先:>>23

使ってみた？良くないでしょ。

WoodpeckerConstant64

👍13か月前

返信先:>>27

GPT 5.1 codex maxは、僕のGitHub CopilotのCLIでは利用できないんだ。

Electronic_Shift_845

👍253か月前

GeminiのCLIがClaude codeやCodexに全然及ばないのが残念。Gemini 3自体はマジで良いのに、ツールがね…

WoodpeckerConstant64

👍53か月前

返信先:>>29

そうそう、IDEユーザーだからめっちゃ楽しみ。

Odd_Perspective_5533

3か月前

返信先:>>29

反重力を使え

jakeblakeley

👍33か月前

返信先:>>31

試してみた？まだまだ粗削りで、バグだらけだよ。

Electronic_Shift_845

👍23か月前

返信先:>>31

正直言うと、CLIツールじゃなくてカスタムIDEが好きじゃないんだよね。だからCursorも好きじゃない。Antigravityも試したけど、まだイマイチだね。

WoodpeckerConstant64

👍13か月前

返信先:>>33

GitHub Copilot CLIは試した？

exoticsclerosis

👍13か月前

返信先:>>29

やっぱりCodexを使ってる理由はこれなんだよね。

randombsname1

3か月前

うーん。まだCCには遠く及ばないな。

どうしてもCCから離れられない。

Claudeが一時的にダメになった時にCodexをちょっと試したけど、次の月にはすぐに戻ったわw

WoodpeckerConstant64

👍13か月前

返信先:>>36

GitHub CopilotにはCLIがあるけど、代替になるかもね。

DeliciousReport6442

👍13か月前

同じハーネスでコーディングエージェントを比較するのは意味ないよ。AnthropicとOpenAIは、RLで自社のハーネスを使ってモデルをトレーニングしてるはず。だから、それらの足場（scaffolding）でパフォーマンスが良いんだよ。結局、ユーザーが得るのはモデルとハーネスの合計なんだから。特定のハーネスでパフォーマンスが良いからって、何の意味もない。

ClerkEmbarrassed371

👍63か月前

Claude CodeにGemini 3のバックエンドは、マジで調子が良い。的確だし、完璧だよ。

ClerkEmbarrassed371

👍43か月前

返信先:>>39

もし試してみたい人がいれば、liteLLM proxyについて調べてみるといいよ。

Elenesski

👍13か月前

正直、どのテーブルが優れてるか議論するのは自由だけど、実際にAIを現場で使ってみないと、その実力はわかんないよね。Sonnet 4.5が最高だって言われてたけど、すぐにおかしな方向に暴走することがあったし。エージェントを使えばAI自身で間違いを修正できるけど、そのせいで無駄なAPIコールがめっちゃ増えちゃうんだよね。

outfinitism

👍23か月前

OpenCode CLIエージェントをいろんなLLMで試してみたんだけど、個人的にはGemini CLIとかCodexよりOpenCodeの方が良い感じ。CCは古い分だけ洗練されてるのかもしれないけど、Gemini 3.0みたいな良いモデルを使えば、差はほんのわずかだよ。

Kurdonoid

👍13か月前

Claudeは決して複雑にしすぎない。
いや、結構。俺はクリーンで堅牢なコードが好きだから。

Outside_Reindeer_713

👍13か月前

Claudeが一番。