r/bard🔥 191
💬 22

Gemini 3 ProがSimpleBenchで76.4%を記録!人間レベルの83.7%に肉薄

Ill-Association-8410
3か月前

ディスカッション (22件)

0
Ill-Association-8410OP🔥 191
3か月前

Googleの最新AIモデル「Gemini 3 Pro」が、推論能力を測定するベンチマーク「SimpleBench」で76.4%という驚異的なスコアを叩き出しました。人間による基準値(83.7%)との差を大きく縮めており、AIが人間のパフォーマンスに追いつく日が目前に迫っています。

2
Interesting-Look7811
👍93か月前

うわー、あのクイズマジでくだらなかった。

3
New_Tap_4362
👍33か月前

ベスは最初の1分にフライパンに氷を4つ入れ、2分目の最初に5つ入れ、3分目の最初にもっと入れたけど、4分目には入れなかった。カリカリの卵を焼いている間、フライパンに入れた氷の1分あたりの平均が5個だった場合、3分目の終わりにフライパンには何個の氷がある?

誰がフライパンに氷を入れるんだ?石の方が栄養があるし、室温で保存できるし、美味しいってみんな知ってるだろ。

4
Salt-Commission-7717
👍33か月前

全部トリッキーな質問だから、LLMは「記憶」(学習)から全てを得ることはできないんだよ。

5
niksoncg
👍13か月前

Thanks, didn't know this.
But the answer to 4 is wrong, the correct one is A, not C (and then you do the opposite) - this is old mind puzzle.

6
Ill-Association-8410
👍183か月前

Gemini 3 Deep Thinkは、人間のベースラインに到達するか、超えるかもね。

7
reedrick
👍33か月前

Simple benchって、MCQ(多肢選択問題)のためにチャットボットに簡単なテキスト入力するやつだよね? Deep Thinkもテストしない理由がわからん。APIなんて要らないはずなのに。

8
bchertel
👍103か月前

メンテナーがAPIを使って何回か実行して、平均出してるんじゃないかな。手作業を避けるにはAPIが必要ってこと。

9
CheekyBastard55
👍53か月前

200問以上あって、平均5回試行してると思う。

Deep Thinkの制限考えると、ありえないレベルだよね。

10
HumbleIdeal5412
👍453か月前

いいね。Gemini 4が楽しみだ。人間のベースラインスコアを超えちゃうかも。

11
Dear-Ad-9194
👍243か月前

Gemini 3.5なら来年の早い時期に超えるんじゃない?

12
tomTWINtowers
👍93か月前

Gemini 3.25なら今年の終わり頃には超えるんじゃない?

14
Opps1999
👍73か月前

Gemini 3.5はよ。Gemini 3のリリースから結構経つじゃん。

15
jan04pl
3か月前

公開テストがそんなに長く存在してたら、そのデータがすでに学習データに含まれてる可能性もあると思わない?

16
samwell_4548
👍83か月前

質問がどんな感じか見れるように、小さい公開データセットはあるけど、モデルをテストするための、もっと大きな内部データセットがあるんだ。

17
siddhantparadox
👍23か月前

2026年の第1四半期には、人間の水準に到達するだろう。

18
ain92ru
👍13か月前

Gemini 3は昨夜、High thinking設定で俺が個人的に集めたトリッキーな問題を見事に打ち砕いてくれたから、Simple Benchでもうまくいくと思ってたんだ。正直どうしてかはわからないけど、もしかして思考時間が長くなったから?

19
Key-Month-7766
3か月前

Gemini 2.5 ProがGPT 5 ProとかClaudeより上位にランク付けされるようなベンチマークはクソだと思うわ。

20
Grablicht
👍33か月前

Gemini 3.0は俺が期待してた全てだ。
もう満足。このままなら、ずっとプレミアムに課金するよ。Googleありがとう!

21
Hot-Comb-4743
👍23か月前

素晴らしいのは、あの強力なGemini 2.5 ProもGPTとClaudeを打ち負かしているってことだ!