ディスカッション (9件)
Micro-Agentは、モデルAPI内部で複数のエージェントを連携させることにより、単体の巨大なフロンティアモデルを凌駕するパフォーマンスを引き出す手法です。
いい加減、AIが完全に生成したテキストをHNに投稿するのはやめにしないか?
これはヘテロジニアスな推論ハードウェア群をうまく活用するのに役立ちそうだね。
「フロンティアモデル」という言葉が2つの意味を持ち始めている。1つはチェックポイント、もう1つはシステムの境界。
LLM用語はさておき、こうなってほしいとは誰も思っていないのでは? LLMはどれほど複雑であっても、基本的には推論可能なものだ。EOSが来るまで次のトークンを選んでいるに過ぎない。それらのトークンにどのような意味(推論やツール呼び出しなど)を持たせるかは、ユーザー側(ハーネス)の判断と実装次第だ。ブラックボックスの裏側に押し込められるものが増えれば増えるほど、モデルの挙動を十分に理解して、より大きな抽象化の中に組み込むのが難しくなる。パフォーマンス(とインターフェースやコントラクトの遵守)がそれを補ってくれる可能性はあるけれど、Opusや5.5からこれやFuguに切り替えるのは、異なる「ベース」モデルを切り替えるよりもはるかに大きな変更に見える。
こうしたソリューションのおかげで、LLMが完全にコモディティ化しつつあるという見方が定着してきたね。
みんな結局「ハーネスが全て」と言っていたし、これは当然の結果だろうね。
最適解は、ハーネスとルーターの役割をもっとシームレスに統合することだと思う。どちらも全体像の半分しかカバーしていないわけだし。
モデルプロバイダーはみんな、UIの裏側ですでにこういうことをやっているんじゃないの?
異なるモデルでA/Bテストをしているときは間違いなくそうだし、Fableだってガードレールに引っかかればOpus 4.8にルーティングしているはず。
あと、OpenRouterが最近リリースしたfusion routerも面白いよ - https://openrouter.ai/blog/announcements/fusion-beats-fronti... (https://openrouter.ai/blog/announcements/fusion-beats-frontier/)
良さそう(中身のない記事は置いておいて)だけど、なんでVSR HybridのベンチマークがHumanity’s Last Examだけで、他の2つ(LiveCodeBenchやGPQA-Diamond)はやってないんだ? うっかりミスか、それとも結果がひどすぎて見せられないのか?
Sakana Fuguが登場した時のインパクトは凄まじかったな……。テスト用のサブスクリプションを2日で解約しちゃったよ。