HN🔥 197
💬 146

「寝てる間に働いてくれるAIエージェント」を実現したい!24時間フル稼働の自動化アイデア

aray07
約6時間前

ディスカッション (10件)

1
RealityVoid
約5時間前

テストを書くためだけに人を雇うときと同じ問題だね。多くの場合、単に「コードが今やってる通りに動くこと」を確認してるだけになっちゃう。コードが本来どう動くべきかっていう明確な仕様(スペック)があれば、もっと状況は良くなるしクリアになるんだけどさ。

2
egeozcan
約5時間前

Claudeに「レッド・グリーン・リファクタリング」を使ってって指示するのは、プロンプトの最後に「あ、テスト書くの忘れないでね、ちゃんとパスさせて」って付け加えるよりはずっとマシ。でもさらに良いのは、メインのインスタンスに指示して、レッドチーム、グリーンチーム、リファクタリングチームっていうサブエージェントを作らせること。クリーンルームのルールを守らせながらメインが全体を調整するんだ。これ、マジで効くよ。コツはコンテキストを混ぜたり共有したりしないこと。同じモデルの別インスタンス同士は、お互いを認識しない方が指示をよく守ってくれるんだよね。

3
bhouston
約5時間前

これ、僕は「テスト・シアター(形だけのテスト)」って呼んでるんだけど、本当にあるあるだよね。去年それについてブログを書いたんだ: https://benhouston3d.com/blog/the-rise-of-test-theater 意識して対策しないとダメだよ。

4
seanmcdirmid
約5時間前

Gemini CLIでサブエージェントを使ったディファレンシャル・テスティング(差分テスト)をやってるよ。やり方はこんな感じ: 1. 仕様からコードを書く/更新するエージェントが1人。 2. 仕様にあるエッジケースからテストを書く/更新するエージェントが1人。 3. コードに対してテストを実行するQAエージェント。テストが落ちたら、コードとテストの両方を見れる唯一の立場として原因を特定して、コード担当かテスト担当にフィードバックを送って修正させる。(テストが全部通るまで1〜3を繰り返す) コードがテストに通るように自分を勝手に書き換えることも、テストがコードの挙動に合わせちゃうこともできないから、ある程度の独立性が保てるんだ。失敗するパターンとしては、単にテストがいつまでも通らないってだけで、テスト担当とコード担当が両方同じ勘違いをしてるってことはまずない(宇宙の熱的死が訪れるより先に起きないレベルで稀)。むしろ仕様が曖昧だったり矛盾してたり、あるいは問題がLLMには大きすぎてテストが一生パスしない、っていうケースの方が多いね。

5
recroad
約4時間前

これ、感心しなきゃいけないやつ? 最近はみんな、ただ使いたいからって理由でエージェントを使ってる気がする。僕は「書く用」と「レビュー用」のシンプルな2つのエージェントを走らせるだけで十分満足だよ。光速以上のスピードでコードを書く必要なんてないし。仕様に集中して、エージェントの動きを見守りつつ、おかしくなったら介入するっていうスタイルで全然問題ない。それだけで生産性は5〜7倍になってるし、それ以上は求めてない。時間は主に、設計が正しいか確認するために仕様のレビューに充ててる。それが終われば、コーディング用のエージェントが10分かかろうが30分かかろうが構わないよ。そんなに急いでないからね。

6
itissid
約3時間前

「どうやってエージェントに信頼性の高いものを作らせるか」っていう大きな問いに対しては、結局「人間の専門家による判断」っていう複雑な部分を避けられないことが多いんだよね。僕が試してる例だと「ラーニング・テスト(学習用テスト)」がある。システムに新しい要素を入れたとき、エージェントに高価値なテストを実行させて、そのコードの使い方を自習させるっていうアイデア。これはレバレッジが効くはずのもの、つまりコードベースを理解するのに本当に役立つものであるべきだから、AIが反復学習するためにめちゃくちゃ厳選する必要がある。でも結局、どれを学習用に選ぶかっていう「人間の専門家による判断」に複雑さがシフトしただけなんだ。数日で数百万行の新機能を書くようなコードベースだと、人間側でかなり慎重な作業が必要になるだろうね。

7
wesselbindt
約2時間前

この人、エージェントに何を作らせてるか知ってる人いる? ちょっと調べてみたけど、Claudeに関するLinkedInの投稿しか流してないように見えるんだけど。

8
iam_circuit
約1時間前

一番難しいのはエージェントを自律的に動かすことじゃなくて、寝てる間も安心して任せられるくらいレジリエント(強靭)にすることなんだよね。致命的なのは「エラーの蓄積」だと思う。2時間目にエージェントが小さなミスをして、それが4時間目に積み重なって、朝起きたらコンパイルは通るけど中身が微妙に間違ってるコードが出来上がってる。人間が介在してれば即座に気づけるけど、一晩中回してるとそうはいかない。役立つパターンは2つある。(1) チェックポイント・バリデーション:先に進む前に正当性を証明させる明示的なゲートを設けること。(2) ロールバック・トリガー:テストの合格率がしきい値を下回ったら、最後に正常だった状態まで自動で戻すこと。それでもオブザーバビリティ(観測可能性)の問題は残る。起きて8時間分のログを眺めて、午前3時に何が起きたか探らなきゃいけないんだから。

9
skyberrys
22分前

僕にとっては、記事の最後の一節が一番価値があったな。まずテストを普通の言葉で書き出して、それからその言葉とテストのプロンプトを使って自律エージェント用のプロンプトを書く。自動生成されたコードを使うんじゃなくてね。