ディスカッション (11件)
Googleの次世代AIモデル、Gemini 3.1 Proのプレビュー版がついに公開されました!Vertex AIのModel Gardenから、いち早くその実力を試すことが可能です。合わせてDeepMindから公開されたモデルカード(技術仕様)もチェックしておきましょう。 プレビューURL:https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemini-3.1-pro-preview?pli=1 モデルカード:https://deepmind.google/models/model-cards/gemini-3-1-pro/
価格はGemini 3 Proから据え置きで、入力100万トークンあたり2ドル、出力は12ドル。知識のカットオフも2025年1月のままだね。Gemini 3.1 Proは、Gemini 3では対応していなかった「medium」思考をサポートしているよ。Opus 4.6の入力5ドル、出力25ドルと比較すると、もしGemini 3.1 Proが本当に同等のパフォーマンスなら、この価格差はかなりインパクトがあるな。
「自転車に乗るペリカン」テスト以外なら、SVGはかなりいい感じに書けてる。このプロンプトとかね:
「Xboxで遊ぶユニコーンのSVGを作って」
最終結果にはまだ微調整が必要だけど、ARC-AGIベンチマークがこれだけ跳ね上がったってことは、モデルの視覚能力が向上して、ここまで上手くできるようになったんだろうね。
かなり見事なペリカンだね:https://simonwillison.net/2026/Feb/19/gemini-31-pro/ ―― 5分以上かかったみたいだけど、たぶんリリース初日でパフォーマンスに初期トラブルが出てるからじゃないかな。
Googleのモデルを使いたい気持ちは山々なんだけど、例の「Google製品あるある」な問題を抱えてるんだよね。
Gemini CLIにログインして使うのがマジで怖い。前回はGoogle Workspaceの「無料」枠を使ってるつもりだったのに、気づいたらAPIの課金で10ドル使ってた。UIが分かりにくすぎて途中で諦めたよ。あと20〜40分かければ解決できるんだろうけど、正直やりたくないんだよな。
それはさておき、Gemini 3.1はもっとエージェント的になったかな?だいたいそこで失敗するんだよね。モデル自体はすごく賢くて有能なんだけど、使いこなすのが難しいっていうか。俺だけかな?
3.0 Proよりマシになってることを祈るよ。
元グーグラーでチームの知り合いもいるから、少なくとも上手くいくよう密かに応援はしてるんだけど、Geminiは開発に使うには一貫して一番フラストレーションが溜まるモデルなんだ。
推論、設計、コード生成の能力自体は驚くほど優秀なんだけど、実際にタスクを完遂しようとすると、特にClaude Opusと比べて力尽きちゃうことが多い。
VS Code Copilotだと、Claudeは思考プロセスとユーザーへの返答のバランスがいい。一方Geminiはほぼ思考トークンだけで埋め尽くされて、何かを実行した後に何を説明もしない。思考トークンをチェックしないと何が起きたか分からないし、その思考プロセスの中身も「今、問題に完全に没頭しています...」みたいなゴミばかり。あと、Geminiはよくループにハマって前進できなくなる。ツールの使い方も下手で、提供された編集ツールを使わずに変なやり方でファイルを編集しようとしたりする。Copilot内では聞き返しもしてくれない(Gemini CLIだとやるんだけど)。
だから「Geminiで計画を立てて、Claudeで実行する」っていうやり方を試したこともあるけど、それなら最初からClaudeでいいじゃんってなる。体験の質が全然違うんだよ。Googleが追い抜いてるって話はよく聞くけど、実用面ではAnthropicの方が先に進んでる気がする。Geminiチームの人は、ゲームをワンショットでクリアして勝利宣言するんじゃなくて、実際のプロジェクトでこれらを試してほしいな。
Gemini 3はまだプレビュー版(レート制限あり)で、2.5は非推奨(まだ生きてるけど長くはない)だね。
Googleは近いうちにどれかのモデルを本番環境に出すつもりがあるのかな?
あと、代替モデルの提案なしに一部のモデル(gemini-2.5-flash-lite)を非推奨にするのも笑える。Claudeに乗り換えろってこと?
洗車のロジック問題に完璧に答えたね:
間違いなく車で行く必要がありますね。ニュートラルに入れて押すのでなければ!
200フィート(約60m)は歩くにはとても短くて簡単ですが、車なしで行ったら、着いた時に洗うものが何もなくなってしまいます。石鹸と水をかけるためには、車を一緒に連れて行かなければなりません。
ほぼ隣みたいなものですから、人生で一番短いドライブになるでしょう。エンジンをかけて移動して、ピカピカにしましょう。
洗った直後に雨が降らないか、現地の天気予報を確認しましょうか?
最近のモデルは本当に強力だね。以前の数分の一の時間でソフトウェア製品を丸ごと作れるようになっている。
でも、ここでのコメントを読んでると、メジャーバージョンでもない、たったコンマ1のアップデートで挙動が激変してるみたいだ。
今は、めちゃくちゃ優秀なエンジニアを1ヶ月間、高級寿司1回分の値段で雇えるような状態だね。
ただ、新しいモデル(たとえ同じファミリーのマイナーアップデートでも)の採用にはかなり慎重にならないといけない。プロンプトやエージェントの設定に関係なく、全く別物のように動くから。
毎月、性格も経験も価値観もバラバラな新しいチームに丸ごと入れ替わる開発チームを管理することを想像してみてよ。カオスだよね。
古いモデルは予告なく急に廃止されるか、もっと悪いことに、気づかないうちに微妙に違う挙動にすり替えられたりするんじゃないかと思う。まるで底なし沼だよ。
みんなGoogleのコスパを過小評価しすぎだよ。Opusの半額だよ、半額。
他のどんな製品でも、競合の半額だったら何を期待するか考えてみてよ。なのにここの連中はGeminiを役立たずみたいに扱ってるよな。
アップデート:
3.1はAAインデックスの実行コストがOpus ThinkingやSonnetの40%で済んで、Opusに勝ったし、出力スピードも30%速かったよ。
気休めかもしれないけど、Opus 4.6が3回試しても苦戦したUIとデータ同期のレースコンディションを、Gemini 3.1はワンショットで修正できたよ。
今のところ、前のバージョンより冗長じゃないのが気に入ってる。要点にたどり着くのも早くなった気がするし。
期待はしてるけど、まあ様子見かな。じゃなきゃ、「リサーチや一般教養はGemini、仕上げはOpus/Sonnet 4.6」って使い分けになりそう。
追記:ちょっと褒めすぎたかも。
「配列の同期バグを修正」
「消えた配列アイテムの原因は、さっきのタイポだった!GCキャストのクラッシュを直す時に、誤って代入処理を消しちゃって、後ろの配列を全部切り詰めちゃってた」
こういうミスは勘弁してほしい。知識不足とか勘違いのせいじゃない。単純な検索置換のミスだから、完全に回避できるはずなのに!
余談だけど、こういうことが起きるたびに、このファミリー・ガイのシーンを思い出すよ。