ディスカッション (7件)
Kimi Vendor Verifierは、各種推論プロバイダー(Inference Providers)の出力精度を検証するためのツールです。AIモデルのパフォーマンスや信頼性を客観的に評価したいエンジニアにとって、非常に役立つユーティリティです。
これが存在するのはいいことだね。推論プロバイダーはこっそり量子化レベルを差し替えたりするけど、ほとんどのユーザーは確認なんてしてない。モデル提供元による標準的な検証ツールというのは正しい方向性だし、他のラボも同じようにやってほしいね。
理解が正しければ、この脅威モデルはパフォーマンスに影響する偶発的な問題を防ぐのが目的で、悪意のあるアクターまでは想定してないってことだよね。
例えば、怪しいプロバイダーが「最新の最高モデルを動かしてる」と言っておきながら、実際は知った上でより安価(で低性能)なモデルを動かして差額を懐に入れるようなケース。このテストだと、フォルクスワーゲンの排ガス不正みたいに、テストされていることを検知してその時だけ正しく動くような不正には対応できないよね?
ハイエンドな機材で15時間も回すようなテストは、再現もスケールも難しいだろうね。でも、クラウドサービス全般に言える広範な懸念に対処するものだと思う。結局、「要求したもの」が「返ってくるもの」とは限らないからね。
Anthropicの次に、Moonshotもサンプリングパラメータの調整を制限するモデルプロバイダーになったね。とはいえ、ベンダーによる検証っていう考え方はすごくいいと思う。
このアイデアはいいね。推論プロバイダーに長年の問題を改善させるための、もっとも効果的な社会的圧力の一つになるかもしれない。例えばAWS Bedrockだと、KimiのK2/K2.5モデルのサービングスタックに致命的な欠陥があって、ツール呼び出しをしようとすると20〜30%の確率でトークンも出さずに会話が終了しちゃうんだ。これじゃKimiを使うための本格的な推論プロバイダーとしてAWSは論外だし、結局、エージェントタスクで同等の性能を求めて、はるかに高額なBedrockのAnthropicモデルへ誘導されてるように見える。
これはうちのベンチマークでも本当に問題になってる。OpenRouterのプロバイダーで、量子化について明記していなかったり、想定より低い量子化レベルを使っていたりするやつには注意が必要だね。OpenRouter自体には設定オプションがあるけど、実際には選択肢が大幅に制限されることが多い。とはいえ、最高のプロバイダーを使ったとしても、うちのベンチマークでKimi-K2-thinkingは結果が微妙で遅かったな。温度パラメータやバリエーションの検証には面白くて有用だったけど。
ただ、Kimi K2.6は今のところ新しいオープンソースのリーダーだよ。エージェントの評価はまだ途中だけど、ワンショットのコーディング推論ベンチマークならここで見られるよ https://gertlabs.com/?mode=oneshot_coding