ディスカッション (11件)
Gemini 1.5 Flashで利用可能になった「Computer Use」機能について、皆さんはもう試しましたか?この機能を使えば、AIがまるで人間のようにPC画面を認識し、マウス操作やキーボード入力を通じてアプリケーションを操作することが可能になります。面倒な自動化タスクや反復作業の効率化において、非常に大きなポテンシャルを秘めた注目のアップデートです。
GeminiアプリにはまだMCPのサポートがないんだよね。チャットするだけで色々な情報を入手できるのはユーザーとしてかなり便利なんだけど。例えば最近Airbnbで宿泊先を探そうとして、家の画像分析を含めた細かい条件でフィルタリングしたかったんだけど、Geminiにはそれができなくて結局Codexでやる羽目になった。
Computer useなんて最悪なアイデアだよ。遅いし、セキュアじゃないし、エラーは多いし、コストもかかる。もしトークンを消費させる(tokenmaxx)ことが目的なら有効な戦略に見えるかもしれないけど、こんなのがユーザーにとって快適になるわけがない。これはLLMとOSをどうインターフェースさせるべきかをまだ理解できていないことの現れだと思う。まだ黎明期だからね。そのうちコーディング以外でのLLMの人間工学的な使い方において、iPhoneのような革命的な瞬間が来るんだろうけど。
面白いのは彼ら自身のグラフだよ。https://storage.googleapis.com/gweb-uniblog-publish-prod/images/gemini-3-5__benchmark-OSWorld-Ve.width-1000.format-webp.webp このグラフを見るとGemini 3.5 FlashはOpus 4.8とGPT 5.5に完敗してるのに、なぜかグラフはGeminiが勝っているかのように描かれている… :-D
競合のClaude CoWorkやCodexみたいなUIがないね。これじゃVaporware(中身のない製品)だよ。
TUI(テキストユーザーインターフェース)を作るのには向いてるのか気になる。今のところTUIを操作したり作成したりさせると、壊滅的なほど酷いからね。
Googleのモデルを使ってる人たちに聞きたいんだけど、自分の使い方が悪いのか、それともガードレールが厳しすぎるだけなのか?最近Geminiを試す機会があったんだけど、ことごとく拒否されるんだ。「SIM番号を別のプロバイダーに移すにはどうすればいい?」→「ダメ」。「NTFSでバックアップを取る時、データ損失を防いでビットロット耐性を高めるには何に気をつけるべき?」→「ダメ」。「このコードを評価して?」→「ダメ」。Mythosの騒動でビビってるのかは知らないけど、AIが何にも使えなかった暗黒時代を思い出すよ。でもChatGPT 5.5に行くと、例のサイバーセキュリティの決まり文句を除けば、だいたいのことはやってくれるんだよね。
今日、GeminiにPDFの付録から表を抽出してC++のデータテーブルを作らせようとしたんだ。修正と新たな間違いを15回くらい繰り返した末に、結局あきらめたよ。驚いたのは「申し訳ありません、この単純なタスクはこなせません。エラーのしきい値を超えてしまったため対応できません。私のLLM予測エンジンは、単純なデータのコピーや再フォーマットをする代わりにデータを捏造してしまうのです」と言われた時だ。Geminiがデジタルな腕を振り上げてギブアップするのを見て呆然としたよ。
Computer useやスクリーンショットベースのアプローチにはかなり懐疑的だ。Retriever AIでは、Webページを表現するためにカスタムのアクセシビリティツリーを構築していて、最近DeepSeek v4 Flashに切り替えたんだけど、コストが100分の1近くになったよ。Webサイトの内部APIをリバースエンジニアリングして、直接リクエストを叩くコードを書く方がずっと成功率が高い。スクリーンショットを使ってWebサイト上のアクションをエミュレートし、裏で動いているネットワーク通信をトリガーするようなアプローチは、あまりにも素朴すぎる気がする。
で、GoogleはCodexやClaude Codeに相当するものをGeminiに提供したの?Geminiをコーディングに使いたいんだけど、今の状態だと「リポジトリをクローンして静的解析のためにコードを読み込む」ことすらどうやればいいのかわからないし、リポジトリにPRを送るなんて到底無理。ChatGPT/Codexはできるし、Claudeもできるのに、なぜGeminiにはできないんだ?それに「Antigravity」とかを通すのは違うし、個人的には明示的なポリシーなしでLLMが自分のコンピュータに無制限にアクセスするのは怖い。Googleは順序が逆だと思う。
俺は事実上すべてのSOTAモデルに無制限にアクセスできるけど、LLMを使う時は10回中9回はGemini Flash 3.5を選んでる。LLMなんてほとんど使い物にならないけど、それでも使うならGeminiだね。どうせ95%の確率で時間を無駄にするなら、サクッと終わらせられる方がマシだから。