HN🔥 93
💬 44

【Launch HN】面倒なE2Eテストはもう不要?AIエージェントが自動でテストを実行する「TesterArmy」登場

okwasniewski
2日前

ディスカッション (11件)

0
okwasniewskiOP👍 93
2日前

皆さんこんにちは!私たちはOskar、Szymon、Piotrです。今回、Webやモバイルアプリのデプロイ前および本番環境でのE2E(エンドツーエンド)テストを自動化するAIエージェントプラットフォーム「TesterArmy」(https://tester.army )をリリースしました。手動テストや静的なスクリプトの保守に何時間も費やす必要はもうありません。自然言語でテスト内容を指定するだけで、あとの面倒な作業はすべてAIエージェントが代行します。デモ動画はこちらからご覧いただけます:https://www.youtube.com/watch?v=291IkUbPrlk 。私たちがTesterArmyを立ち上げた理由は、テストという作業がいまだにエンジニアの大きな負担となっているからです。AIコーディングツールの普及でコードを書く速度は劇的に上がりましたが、テストがボトルネックになっています。従来のE2Eテストは環境構築や保守コストが高く、認証管理やステージング環境の維持など、多くの「痛み」を伴います。TesterArmyなら、エンジニアはCLIをセットアップしてエージェントに指示を出すだけで、テストの作成からGitHub連携、定期実行まで自動化可能です。問題が発生すればSlackやDiscordで即座に通知されます。すでに30以上の開発チームが導入しており、オンボーディングや決済フロー、AIチャットなど、重要機能のバグを早期発見しています。具体的には、複雑なダッシュボードのタイムゾーンバグ、エージェントオーケストレーションのデグレ、決済金額の計算ミス、AIチャットのデータ取得不能エラーなどを検知しました。ぜひ https://tester.army から無料枠をお試しください。セールス電話や面倒なオンボーディングは一切なし。導入した瞬間から「ちゃんと動く」体験を提供します。E2Eテストにお悩みの方は、ぜひフィードバックをお寄せください!

1
msencenb
2日前

ツールがオープン中のPRを読み込んで、コードパスを推測して自動でテストを実行するようなループ構造はもう作れた?ウチのコアフローにはCypressをかなり使ってて、似たようなAIプロンプト的な機能はあるんだけど、ちょっとした修正に対してはアドホックさが足りなくて。結局そこがボトルネックになってるんだよね。

2
dbbk
2日前

「従来のE2Eテストはセットアップが遅いし、維持費もかかる」という意見、正直あまりピンとこないな。もしOpusを使ってコードを書いてるなら、当然そのAI自身が一番よく分かってるはずじゃない?自分の出力したコードを検証するためにどのE2Eテストを書けばいいかなんて。これって余計な外部ステップを挟んでるだけじゃないかな。

3
RayFitzgerald
2日前

そのプロダクトへのアプローチ、すごく良いね。TesterArmyはまさに「テスト版Vercel」になりそうな予感がする。新鮮で面白いよ!

4
poisonborz
2日前

LLMのおかげでE2Eテストをサクッと書けるようになったし、決定的で実行コストも安くなった。これって、各テストでエージェントを動かし続けるトークンコストと比較するとどうなの?非決定的な性質の中で、どうやって結果の安定性を保ってるのか気になる。あと、結局ユーザー側でテストケースを作る必要があるなら、既存のテスト管理システムからインポートして、そこからE2Eテストを生成するような仕組みはあるの?

5
tcoff91
2日前

モバイルテストにおいて、https://revyl.com と比較してどういう強みがあるのか興味あるな。Revylを試してみたけどかなり良かったよ。個人的には、こういうエージェント駆動型のテストこそが未来だと思う。

6
antifarben
2日前

最近、セルフホストのインフラでモバイルアプリのテストをするのにみんなは何使ってる?あまり動作が重くなくて、かつ遅くない解決策ってないかな?

7
_pdp_
2日前

プレビュー環境に対してPRを検証するのにTesterArmyを使ってるけど、最高だね。手動チェックの手間がかなり省けるようになったし、自信を持ってデプロイできるようになったよ。

8
pensono
2日前

プレビュー環境でPRの検証をするのにtester armyを使うの最高だよ。手動チェックをかなりスキップできるし、おかげで自信を持ってリリースできるようになった。

9
pranshuchittora
1日前

試してみたよ。booking.comで簡単なテストを走らせたら3分くらいかかった。テストのステップをキャッシュして、次回以降の実行時はLLMを叩かずに高速化するような仕組みはある?あと、今の料金体系だと1,000テストで300ドル(1テストあたり0.3ドル)だよね。うちはPlaywright MCPを試した時、20ステップ程度のテスト(画像入力込み)で簡単に100万トークン以上消費しちゃったんだけど、その価格設定でビジネスとして持続可能なの?あと、エージェントの有効性を証明するためのベンチマーク結果とか公開されてる?現状だと「信じてくれ」みたいな話に聞こえちゃうからさ。

10
pranshuchittora
1日前

ちょっと調べてみた。
FAST_MODEL = "google/gemini-3-flash" (fastモードのメイン)
DEEP_MODEL = "openai/gpt-5.4" (deepモードのメイン)
VISION_CLICK_MODEL= "openai/gpt-5.4" (ビジュアルグラウンダー)

fast: gemini-3-flash、ダメならgpt-5.4へフォールバック、15分タイムアウト、1ステップにつき最大2回のビジュアル呼び出し。
deep: gpt-5.4、15分タイムアウト、1ステップにつき最大3回のビジュアル呼び出し。

なんでこんなに厳しいタイムアウト設定なの?あと、なんで最新のモデルじゃないんだろう?