HN🔥 38
💬 18

Claude Codeの「CC-Canary」でレグレッションを爆速検知しよう

tejpalv
約11時間前

ディスカッション (8件)

0
tejpalvOP
👍38約11時間前

Claude Codeにおけるレグレッション(退行)の予兆を早期に発見するためのツール「CC-Canary」が公開されました。本番環境への影響を最小限に抑えるための重要な一手となるでしょう。

1
aleksiy123
約10時間前

面白いアプローチだね。スキルを追加したりプロンプトをいじったりした時に、結果が良くなっているのか悪くなっているのかを追跡して理解することにすごく興味があるんだ。

コーディング中に、ハーネス(評価環境)を横断して追跡できるような似たツールを知ってる人いる?

ソロ開発で評価(evals)を実行するのはコスト的に厳しすぎる気がする。

2
evantahler
約10時間前

自分が信用していない計測対象に、自分自身を計測させるっていうのは、あまり精度の高い測定結果にはつながらない気がする。

3
wongarsu
約9時間前

退行(回帰)を追跡するための、より従来的なアプローチについてはこれも見てみて https://marginlab.ai/trackers/claude-code-historical-performance/

このプロジェクトのアプローチは少し型破りだけど、普通のベンチマークデータセットでは隠れてしまうような問題を見つけられるかもしれない。

4
Retr0id
約8時間前

「ドリフト」って何?LLMがやたらと使いたがるけど、結局これといった意味をなさない言葉の一つな気がする(「ギャップ」も同じようなもん)。

5
redanddead
約7時間前

本当のカナリア(警報役)は、カナリアが必要だというその状況自体だよ。

6
Yemane5
約6時間前

サンクス

7
ctoth
約5時間前

結構役に立つ(かもしれない)テクニックを見つけたんだけど、CLAUDE.mdにペルソナブロックを追加しておくんだ。AIが「肉の袋(meatbag)」って呼んでくれなくなったら、HK-47のペルソナ指示が守られていない=他の指示も守られていないってことがわかる。バカげたやり方?うん、そうだよ。でも効くのかって?まあね。それに、プログラミングがすごく楽しくて面白くなるでしょ?最高だよ。

引き込み盆地の話なんて説教しないでくれよな。HKが最高のプログラマーだってことは、みんな知ってるだろ。