ディスカッション (22件)
Googleの最新AIモデル「Gemini 3 Pro」が、推論能力を測定するベンチマーク「SimpleBench」で76.4%という驚異的なスコアを叩き出しました。人間による基準値(83.7%)との差を大きく縮めており、AIが人間のパフォーマンスに追いつく日が目前に迫っています。
うわー、あのクイズマジでくだらなかった。
ベスは最初の1分にフライパンに氷を4つ入れ、2分目の最初に5つ入れ、3分目の最初にもっと入れたけど、4分目には入れなかった。カリカリの卵を焼いている間、フライパンに入れた氷の1分あたりの平均が5個だった場合、3分目の終わりにフライパンには何個の氷がある?
誰がフライパンに氷を入れるんだ?石の方が栄養があるし、室温で保存できるし、美味しいってみんな知ってるだろ。
全部トリッキーな質問だから、LLMは「記憶」(学習)から全てを得ることはできないんだよ。
Thanks, didn't know this.
But the answer to 4 is wrong, the correct one is A, not C (and then you do the opposite) - this is old mind puzzle.
Gemini 3 Deep Thinkは、人間のベースラインに到達するか、超えるかもね。
Simple benchって、MCQ(多肢選択問題)のためにチャットボットに簡単なテキスト入力するやつだよね? Deep Thinkもテストしない理由がわからん。APIなんて要らないはずなのに。
メンテナーがAPIを使って何回か実行して、平均出してるんじゃないかな。手作業を避けるにはAPIが必要ってこと。
200問以上あって、平均5回試行してると思う。
Deep Thinkの制限考えると、ありえないレベルだよね。
いいね。Gemini 4が楽しみだ。人間のベースラインスコアを超えちゃうかも。
Gemini 3.5なら来年の早い時期に超えるんじゃない?
Gemini 3.25なら今年の終わり頃には超えるんじゃない?
マジかよ
Gemini 3.5はよ。Gemini 3のリリースから結構経つじゃん。
公開テストがそんなに長く存在してたら、そのデータがすでに学習データに含まれてる可能性もあると思わない?
質問がどんな感じか見れるように、小さい公開データセットはあるけど、モデルをテストするための、もっと大きな内部データセットがあるんだ。
2026年の第1四半期には、人間の水準に到達するだろう。
Gemini 3は昨夜、High thinking設定で俺が個人的に集めたトリッキーな問題を見事に打ち砕いてくれたから、Simple Benchでもうまくいくと思ってたんだ。正直どうしてかはわからないけど、もしかして思考時間が長くなったから?
Gemini 2.5 ProがGPT 5 ProとかClaudeより上位にランク付けされるようなベンチマークはクソだと思うわ。
Gemini 3.0は俺が期待してた全てだ。
もう満足。このままなら、ずっとプレミアムに課金するよ。Googleありがとう!
素晴らしいのは、あの強力なGemini 2.5 ProもGPTとClaudeを打ち負かしているってことだ!