ディスカッション (79件)
Gemini 3 Proのモデルカードが公開されました!
詳細はこちらのリンクから確認できます。
https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf
アップデート:リンクがダウンしているため、アーカイブ版はこちらです:
https://archive.org/details/gemini-3-pro-model-card
GIFじゃん!(giphy)
マジ?、😔
マジかよ
もう待ちきれないんだけど…。
Googleソース?
AGIは2026年か
ニセモノ?
なんで今までリリースしなかったのか分かったわ。ほぼ1.0リリースじゃん。
3にアクセスするために何かする必要ある? リリースされたらiOSアプリを再起動して、ウェブサイトをリロードする? ログアウトとかログインは不要? 段階的なロールアウトかもね。
何も必要ないよ。そのうちひょっこり現れるさ。
マジかよ
Gemini 3の知識カットオフが2025年1月って、2.5 Proと同じなの?
まあ、ギャップを埋めるための徹底的な研究はすごく効果的だよね。
おそらく、もうすぐリリースされる2.5をコピー&ペーストしただけだろうね。後でアップデートされる可能性が高い。
同じトレーニングデータセットを使ってるからじゃない?
それはちょっと残念。GeminiとExpedition 33について話せるようになるまで、もうちょい時間かかるな。
2025年にはAI生成のクソコンテンツが大量に出回るからね。
あと、これもね:
- 入力: 最大1Mトークンのコンテキストウィンドウ。テキスト文字列(質問、プロンプト、要約するドキュメントなど)、画像、オーディオ、ビデオファイル。
- 出力: テキスト、64Kトークンの出力。
- Gemini 3 Proの知識カットオフ日は2025年1月。
>最大1Mのトークンコンテキストウィンドウ。テキスト文字列(質問、プロンプト、要約するドキュメントなど)、画像、オーディオ、ビデオファイル。
それはそれでいいんだけど、問題は実際にそのコンテキスト長をちゃんと守ってるかどうかだよね。
マジで同意。もうすぐわかるさ。
2025年1月?それはかなりヤバいな。なぜだろう?モデルのトレーニングをかなり前にやったのか、それとも何らかの理由でトレーニングデータを最新の状態に保っていないのか?
競合他社も似たような状況みたいだし、つい最近リリースされたChatGPT 5.1も、まだ2024年の知識で止まってるみたいだね: https://platform.openai.com/docs/models/gpt-5.1 。もしかして、学習にかかる時間が長くなってるだけじゃない?
Cursorだと200万のコンテキストウィンドウをサポートしてる。
APIだと200万だけど、Geminiだと100万みたいなパターンでしょ
つまり2.5 Proと同じ入出力だから、改善はなしってことか。コンテキスト長も実際は100kぐらいなんじゃない?何も言及してないし。
違いが実際に見られるベンチマークをチェックしてみたら?
マジかよ、2.5 Proと同じカットオフ日ってのが信じられねえわ
Gemini 2.5のカットオフ日は2025年1月じゃないぞ
https://deepmind.google/models/gemini/pro/ によると、そうみたいだよ。どこかで違うって聞いたの?
嘘っぽい。
いや、マジだよ。リンク見て、Googleのサイトに飛ぶから。2.5 Proのモデルカードも見てみな、同じドメインで公開されてるから。
どうか嘘であってくれえええ😭
なんで?かなり大幅な改善に見えるけど。
なんで?ベンチマークスコアがマジでヤバいじゃん。
マジで、ジェミニがそんなに嫌ならGrokにでも戻れば?
storage.googleapisはただの汎用的なGoogleクラウドストレージのリンクでしょ。deepmind-mediaの部分が本当にDeepMindのものかどうかは分からんけど。
うん、プレフィックスは正しそうだね。
/deepmind-media は彼らのものだよ、うん。同じリンクのドキュメントがGoogleのブログ記事にもたくさんある。誰かがわざわざGoogleストレージをハッキングして、たった一つのファイルを置いて人をからかうなんて考えにくいな。
SonnetとSWEベンチマーク、あれはマジでフロントエンドの怪物だな。
そこが気になったんだよね。Gemini 3が他のすべてを圧倒してるのに、SWEベンチだとイマイチってどういうこと?
マジかよ、すげえな。
今日知ったんだけど、Claude Sonnet 4.5は人類最後の試験で負けるんだ。
それでも最高のコーディングモデルなんだから、ベンチマークは話半分に聞いとくわ。
Claude Sonnet 4.5は、ものを作るのがマジ得意。スキルとMCPがあれば、タスクに必要な情報を与えれば、メモを取って正式なドキュメントを1つのチャットで作れる。
そうそう、Gemini 2.5はCursorみたいなAgenticツールではマジでクソだったから、3.0を試すのが楽しみ。少なくともエージェントのスコアはClaude/GPTと同等みたいで期待できる。
マジか、すごいな。
P.S. コンテキストウィンドウがまだ1Mなのが残念。
コンテキストウィンドウが1Mだったことなんてないよ。2.5 Pro だと、200k を超えるとマジで Bard みたいになっちゃうし… まあ、様子見だね。
テストのためだけに100万に制限されてるのかも。そういうテスト作った人たちが、もっと許可するようにアップデートする必要があるのかもね。
どれくらい? まだわからん。
誰かGrok 4.1のARC-AGI-2での性能を知ってる?
GPT-5 Pro は HLE で 31.64% か。
またしても漸進的な改善か。壁はマジであるな。
つまり、どのモデルも漸進的な改善で、それでも新しいモデルをリリースし続けるなら、それを壁とは呼ばないんじゃないかな。
簡単なところは拾い尽くされて、指数関数的な改善なんてありえないのは確かだけど、それでも可能な限り絞り出してるんだよ。
リリースごとにステップが小さくなってるね。アーキテクチャの根本的な問題は解決されないまま。Sonnetよりも良いコーディングすらできてないし。AGIはもう終わりだ。
この分野に真剣に取り組んでる人で、LLMがAGIにつながると本気で信じてる人いる?
せやな
そうなの?
LLM についてはそうだと思う。
LLMはずっとそうじゃん。今までと何も変わってないって。
Vending-Bench-2の結果はかなり重要そう。
マジであってほしい 🙏
リンクが開かない
別のページで開いてたから、ダウンロードしちゃったよ(笑)。リフレッシュしたらリンクが削除されてた。
マジか、コーディングではSonnetと同等で、GPT5 Proよりも性能が良いって。Bardの頃からどれだけ進化したんだよ。この分野に参入障壁はマジでないな。
結局はOAIとGoogleが勝つと思う。Anthropicが今の3/15の価格で、Googleとエンタープライズ向けで競争して生き残れるとは思えない。
Claudeのコードはクールだけど、新しい機能が出るたびに競合他社のロードマップを示してるだけじゃん。
削除された!マジだったんだ!
SWE(ソフトウェアエンジニアリング)ではソネットがやっぱり最強 :D
消されたやん
モデルカードに何か面白いこと書いてある?それともベンチマークしか見れない感じ?
マジならすごいな。
ニセモノじゃないよ。DEVモードサーバーでドキュメントのコピーを見つけた。リンク
Vending Benchmark 2は5.1と比較して興味深いな。
マジかよ
これ、マジで良いじゃん。最高だね!
水を差すつもりはないんだけど、スンダー・ピチャイも今日、BBCニュースでAIに関する大きなインタビューを受けてるよ。
予想通り、目覚ましい進歩だね。でも、とんでもないレベルではないかな。中国のローカルモデルなら、最大でも3ヶ月で追いつくだろうね。