ディスカッション (16件)
3.0 Proにめっちゃ期待してる!
ARC Prize - Leaderboard これ使って、arc-agi-2をクリックしてみて。
もし(良い意味で)人間寄りの答えが欲しいなら、LMArenaを使うといいよ。
マジでArc AGI 2は、AIがどれくらい賢いかを測る上で、最高レベルの指標の一つだと思うわ。
Arc AGIのリーダーボードはすごいよね。特に構造化された推論の分野で、新しいアプローチの必要性を浮き彫りにしてる。LMArenaはマジで使えない。めっちゃ攻略されやすいし -> https://www.businessinsider.com/grok-leaderboard-coding-anthropic-claude-scale-ai-2025-7
俺の経験だと、コーディングとかメールの文章作成みたいな一般的なヘルプに関しては、Claude 4.5とGPT-5がマジで一歩抜きん出てる。ソフトウェアプロジェクトの計画立案ですら、Geminiが以前は最強だったけど、こいつらが出てきてからは古すぎて使い物にならなくなっちゃった。
古すぎて使い物にならないってマジ?
俺的には、ツールの使い方が下手だったり、指示にちゃんと従わなかったり、過剰にへつらったりするのが、2.5 Proがイマイチに感じる理由なんだよね。それでも、5 thinking(medium/high)を除けば、非コーダーにとっては今でも間違いなく2番目に優れたモデルだと思うけどね。5 ProとかDeepthinkは置いといて。
大規模プロジェクトに関しては同意できないな。GPT-5とClaude 4.5 (Sonnet)は、大規模なコードベースの全体像を理解するのに必要なコンテキストウィンドウを持ってないんだよ。Sonnetは大幅に改善されたけど、それでもGeminiにはまだ程遠い。
(編集: 例として、GPT-5にRepomixを使って1万行のコードベースを与えて、バグを解決するように頼んでみて。書き戻されるファイルは、数百行、あるいはそれ以上のコードが削除されてると思うよ。俺は以前、GPT-5に数百行のコードを消されたことがある。)
残念なことに、生のコーディング能力では、GeminiはGPT-5とSonnetの両方よりも明らかに劣ってるんだよね。特に、Sonnetは局所的な問題に関しては、文句なしに両者を圧倒する。
今は最悪の状態なんだよ。Gemini 3.0 Proはそのせいでかなり画期的になるだろうし、1年以上はリーダーボードのトップに君臨するだろうと楽観視してる。
素晴らしい分析だね。俺の経験では、20万以上のコンテキストになるとGeminiもかなり役立たなくなるけど、もちろんYMMV(あなたの経験は違うかも)。
いや、その通りだよ。俺も100%同じ経験をしてる。でも、大規模プロジェクトでも完全にダメになる前に、少なくとも1、2個は良い質問ができるから、Gemini 3.0が出るまでは「許容範囲」としておくよ(笑)。
君の3.0への期待値、高すぎじゃない?
「codex-cliなんて使ったことない」って言わずに、「codex-cliなんて使ったことない」って言ってくれ。
俺のプロジェクトはコードが10MBもあるんだけど、codex-cliがちゃんと動いて、新しい関数を追加したり、バグを修正したりしてくれてるぜ。
このベンチマークの進捗がマジで遅いのが面白いよね。SimpleBenchには何か特別なものがあるんだろうな。どっちにしろ、たぶん1年くらいで飽和するだろうけど。
特別?
あいまいな質問のことかな……
だって人間だって85%しか正解できないじゃん。別に不公平じゃないでしょ。
面白いよね。GPT-5の方が間違いなく良いプロダクトなんだけど、コミュニケーションの取り方がどうも好きになれないんだよね(カスタム指示を出しても)。Gemini ProはGPT-5より劣るけど、Gemini Proの方がまだマシなんだ。なんかGemini Proの声の方が魅力的に感じるんだよね、理由は分からんけど。だから、AIを使う時はほとんどGemini Proにしてる。Googleがユーザーコンテキストのパーソナライズ機能を全サービスに展開したら、もっとそうなると思う。