r/bard🔥 49
💬 15

GPT-5 Pro、SimpleBenchでの性能はGemini 2.5 Proに肉薄!気になる3.0 Proへの期待

Standard-Novel-6320
3か月前

ディスカッション (16件)

1
MajorHorse749
👍33か月前

ARC Prize - Leaderboard これ使って、arc-agi-2をクリックしてみて。

もし(良い意味で)人間寄りの答えが欲しいなら、LMArenaを使うといいよ。

2
Standard-Novel-6320
👍43か月前

マジでArc AGI 2は、AIがどれくらい賢いかを測る上で、最高レベルの指標の一つだと思うわ。

4
bambin0
👍173か月前

俺の経験だと、コーディングとかメールの文章作成みたいな一般的なヘルプに関しては、Claude 4.5とGPT-5がマジで一歩抜きん出てる。ソフトウェアプロジェクトの計画立案ですら、Geminiが以前は最強だったけど、こいつらが出てきてからは古すぎて使い物にならなくなっちゃった。

5
colbyshores
👍13か月前

古すぎて使い物にならないってマジ?

6
Standard-Novel-6320
👍13か月前

俺的には、ツールの使い方が下手だったり、指示にちゃんと従わなかったり、過剰にへつらったりするのが、2.5 Proがイマイチに感じる理由なんだよね。それでも、5 thinking(medium/high)を除けば、非コーダーにとっては今でも間違いなく2番目に優れたモデルだと思うけどね。5 ProとかDeepthinkは置いといて。

7
Maxim_Ward
👍33か月前

大規模プロジェクトに関しては同意できないな。GPT-5とClaude 4.5 (Sonnet)は、大規模なコードベースの全体像を理解するのに必要なコンテキストウィンドウを持ってないんだよ。Sonnetは大幅に改善されたけど、それでもGeminiにはまだ程遠い。

(編集: 例として、GPT-5にRepomixを使って1万行のコードベースを与えて、バグを解決するように頼んでみて。書き戻されるファイルは、数百行、あるいはそれ以上のコードが削除されてると思うよ。俺は以前、GPT-5に数百行のコードを消されたことがある。)

残念なことに、生のコーディング能力では、GeminiはGPT-5とSonnetの両方よりも明らかに劣ってるんだよね。特に、Sonnetは局所的な問題に関しては、文句なしに両者を圧倒する。

今は最悪の状態なんだよ。Gemini 3.0 Proはそのせいでかなり画期的になるだろうし、1年以上はリーダーボードのトップに君臨するだろうと楽観視してる。

8
bambin0
👍23か月前

素晴らしい分析だね。俺の経験では、20万以上のコンテキストになるとGeminiもかなり役立たなくなるけど、もちろんYMMV(あなたの経験は違うかも)。

9
Maxim_Ward
👍23か月前

いや、その通りだよ。俺も100%同じ経験をしてる。でも、大規模プロジェクトでも完全にダメになる前に、少なくとも1、2個は良い質問ができるから、Gemini 3.0が出るまでは「許容範囲」としておくよ(笑)。

10
bambin0
👍13か月前

君の3.0への期待値、高すぎじゃない?

11
Healthy-Nebula-3603
👍13か月前

「codex-cliなんて使ったことない」って言わずに、「codex-cliなんて使ったことない」って言ってくれ。

俺のプロジェクトはコードが10MBもあるんだけど、codex-cliがちゃんと動いて、新しい関数を追加したり、バグを修正したりしてくれてるぜ。

12
fmai
👍73か月前

このベンチマークの進捗がマジで遅いのが面白いよね。SimpleBenchには何か特別なものがあるんだろうな。どっちにしろ、たぶん1年くらいで飽和するだろうけど。

13
Healthy-Nebula-3603
👍13か月前

特別?

あいまいな質問のことかな……

14
vanishing_grad
👍23か月前

だって人間だって85%しか正解できないじゃん。別に不公平じゃないでしょ。

15
HotDogDay82
👍13か月前

面白いよね。GPT-5の方が間違いなく良いプロダクトなんだけど、コミュニケーションの取り方がどうも好きになれないんだよね(カスタム指示を出しても)。Gemini ProはGPT-5より劣るけど、Gemini Proの方がまだマシなんだ。なんかGemini Proの声の方が魅力的に感じるんだよね、理由は分からんけど。だから、AIを使う時はほとんどGemini Proにしてる。Googleがユーザーコンテキストのパーソナライズ機能を全サービスに展開したら、もっとそうなると思う。