ディスカッション (8件)
Claude Codeにおけるレグレッション(退行)の予兆を早期に発見するためのツール「CC-Canary」が公開されました。本番環境への影響を最小限に抑えるための重要な一手となるでしょう。
面白いアプローチだね。スキルを追加したりプロンプトをいじったりした時に、結果が良くなっているのか悪くなっているのかを追跡して理解することにすごく興味があるんだ。
コーディング中に、ハーネス(評価環境)を横断して追跡できるような似たツールを知ってる人いる?
ソロ開発で評価(evals)を実行するのはコスト的に厳しすぎる気がする。
自分が信用していない計測対象に、自分自身を計測させるっていうのは、あまり精度の高い測定結果にはつながらない気がする。
退行(回帰)を追跡するための、より従来的なアプローチについてはこれも見てみて https://marginlab.ai/trackers/claude-code-historical-performance/
このプロジェクトのアプローチは少し型破りだけど、普通のベンチマークデータセットでは隠れてしまうような問題を見つけられるかもしれない。
「ドリフト」って何?LLMがやたらと使いたがるけど、結局これといった意味をなさない言葉の一つな気がする(「ギャップ」も同じようなもん)。
本当のカナリア(警報役)は、カナリアが必要だというその状況自体だよ。
サンクス
結構役に立つ(かもしれない)テクニックを見つけたんだけど、CLAUDE.mdにペルソナブロックを追加しておくんだ。AIが「肉の袋(meatbag)」って呼んでくれなくなったら、HK-47のペルソナ指示が守られていない=他の指示も守られていないってことがわかる。バカげたやり方?うん、そうだよ。でも効くのかって?まあね。それに、プログラミングがすごく楽しくて面白くなるでしょ?最高だよ。
引き込み盆地の話なんて説教しないでくれよな。HKが最高のプログラマーだってことは、みんな知ってるだろ。