r/bard🔥 191

💬 22

Gemini 3 ProがSimpleBenchで76.4%を記録！人間レベルの83.7%に肉薄

Ill-Association-8410

7か月前

ディスカッション (22件)

Ill-Association-8410OP🔥 191

7か月前

Googleの最新AIモデル「Gemini 3 Pro」が、推論能力を測定するベンチマーク「SimpleBench」で76.4%という驚異的なスコアを叩き出しました。人間による基準値（83.7%）との差を大きく縮めており、AIが人間のパフォーマンスに追いつく日が目前に迫っています。

🔗 リンク先:https://i.redd.it/t5dek281242g1.png

Ill-Association-8410

👍77か月前

https://simple-bench.com/ だってさ。

Interesting-Look7811

👍97か月前

返信先:>>1

うわー、あのクイズマジでくだらなかった。

New_Tap_4362

👍37か月前

返信先:>>2

ベスは最初の1分にフライパンに氷を4つ入れ、2分目の最初に5つ入れ、3分目の最初にもっと入れたけど、4分目には入れなかった。カリカリの卵を焼いている間、フライパンに入れた氷の1分あたりの平均が5個だった場合、3分目の終わりにフライパンには何個の氷がある？

誰がフライパンに氷を入れるんだ？石の方が栄養があるし、室温で保存できるし、美味しいってみんな知ってるだろ。

Salt-Commission-7717

👍37か月前

返信先:>>2

全部トリッキーな質問だから、LLMは「記憶」（学習）から全てを得ることはできないんだよ。

niksoncg

👍17か月前

返信先:>>1

ありがとう、これ知らなかったわ。でも4の答え間違ってるよ。正解はCじゃなくてAだね（そのあと逆の操作をするやつ）。これ昔からある有名な論理パズルだよ。

Ill-Association-8410

👍187か月前

Gemini 3 Deep Thinkは、人間のベースラインに到達するか、超えるかもね。

reedrick

👍37か月前

返信先:>>6

Simple benchって、MCQ（多肢選択問題）のためにチャットボットに簡単なテキスト入力するやつだよね？ Deep Thinkもテストしない理由がわからん。APIなんて要らないはずなのに。

bchertel

👍107か月前

返信先:>>7

メンテナーがAPIを使って何回か実行して、平均出してるんじゃないかな。手作業を避けるにはAPIが必要ってこと。

CheekyBastard55

👍57か月前

返信先:>>8

200問以上あって、平均5回試行してると思う。

Deep Thinkの制限考えると、ありえないレベルだよね。

HumbleIdeal5412

👍457か月前

いいね。Gemini 4が楽しみだ。人間のベースラインスコアを超えちゃうかも。

Dear-Ad-9194

👍247か月前

返信先:>>10

Gemini 3.5なら来年の早い時期に超えるんじゃない？

tomTWINtowers

👍97か月前

返信先:>>11

Gemini 3.25なら今年の終わり頃には超えるんじゃない？

Jeannatalls

👍27か月前

返信先:>>10

マジかよ

Opps1999

👍77か月前

Gemini 3.5はよ。Gemini 3のリリースから結構経つじゃん。

jan04pl

7か月前

公開テストがそんなに長く存在してたら、そのデータがすでに学習データに含まれてる可能性もあると思わない？

samwell_4548

👍87か月前

返信先:>>15

質問がどんな感じか見れるように、小さい公開データセットはあるけど、モデルをテストするための、もっと大きな内部データセットがあるんだ。

siddhantparadox

👍27か月前

2026年の第1四半期には、人間の水準に到達するだろう。

ain92ru

👍17か月前

Gemini 3は昨夜、High thinking設定で俺が個人的に集めたトリッキーな問題を見事に打ち砕いてくれたから、Simple Benchでもうまくいくと思ってたんだ。正直どうしてかはわからないけど、もしかして思考時間が長くなったから？

Key-Month-7766

7か月前

Gemini 2.5 ProがGPT 5 ProとかClaudeより上位にランク付けされるようなベンチマークはクソだと思うわ。

Grablicht

👍37か月前

Gemini 3.0は俺が期待してた全てだ。
もう満足。このままなら、ずっとプレミアムに課金するよ。Googleありがとう！

Hot-Comb-4743

👍27か月前

素晴らしいのは、あの強力なGemini 2.5 ProもGPTとClaudeを打ち負かしているってことだ！