HN🔥 193
💬 111

EC2級のパワーを500msで!AIエージェント専用サンドボックス「Freestyle」が凄すぎる

benswerd
約8時間前

ディスカッション (11件)

0
benswerdOP🔥 193
約8時間前

Freestyle(https://freestyle.sh )の共同創業者、BenとJacobです。私たちは「AIコーディングエージェントのためのクラウド」を開発しています。

第1世代のエージェントは、最小限のツールを組み合わせたワークフローに過ぎませんでした。2年前、私たちがAIにSQLを操作させるパッケージを公開した当時は、GPT-4が簡単なスクリプトを書けるというレベルでした。その後、AI App Builderが登場し、AIがWebサイト全体を構築するようになり、私たちはそれをサーバーレス・デプロイシステムで支えてきました。

しかし、現在の世代はさらにその先を行っています。最小限のツールや単純なサーバーレスアプリではなく、AIがコンピュータの全能力(サンドボックス)をフル活用できる時代です。私たちは、エージェント側から見ればEC2と同等でありながら、さらに強力な機能を備えたサンドボックスを構築しています。

  1. メモリ丸ごとの「水平フォーク」:サンドボックスを400ms以下の停止時間で水平方向にフォーク(複製)する技術を確立しました。これはファイルシステムのコピーではなく、メモリ全体をフォークすることを意味します。ブラウザでアニメーションが動いている最中なら、すべてのフォーク先で同じ場所で動いています。Minecraftサーバーなら、全ブロックもプレイヤーも同じ位置に存在します。ローカル開発環境でプロセスにエラーが出ているなら、そのエラー状態すらもすべてのフォークに引き継がれます。これはスナップショットとしても機能し、数週間後に全く同じ状態から再開することも可能です。

  2. 爆速起動:サンドボックスの起動時間は約500msです。

デモはこちら:https://www.loom.com/share/8b3d294d515442f296aecde1f42f5524

他のサンドボックス製品と比較して、私たちが目指しているのは「最強のパワー」です。フル機能のLinux、ハードウェア仮想化、eBPF、Fuseなどをサポートしています。runcではなくsystemd initを使用したフル機能のDebianをマルチユーザーで動かしています。Debianで動作することが期待されるものは、すべてこのVM上で動作するはずです。もし動かない場合は、ぜひバグ報告を送ってください。

これを実現するために、私たちは自前のベアメタル・ラックへと移行しました。テストの初期段階で、VMをクラウドノード間で移動させると、パフォーマンスが許容できないレベルになることが分かったからです。Google CloudやAWSにベアメタルノードの見積もりを依頼したところ、月額費用がハードウェアの購入総額とほぼ同等だったため、自分たちで構築することに決めました。

私たちの目標は、AIという大規模なマルチテナント・スケールにおいて、人間の「開発ループ」を再現するために必要なインフラを構築することです。数秒でプロビジョニング可能でありながら、エンジニアが使い慣れたVMと同じくらいパワフルな環境を提供していきます。

1
stingraycharles
約7時間前

かなり興味あるよ。すごく試行錯誤して作ってるのが伝わってくる。でも、正直まだちゃんと理解できてないんだよね。俺がサンドボックスって聞いて思い浮かべるのは、隔離された実行環境のことなんだけど。サンドボックスをフォークできると、どんなメリットがあるの?そもそも、このサンドボックス全般の強みって何?気を悪くしないでほしいんだけど、抽象的じゃなくて、ある程度規模感のある具体的なユースケースが知りたいな。最終的なゴールはどこなの?

2
stocktech
約7時間前

仕事で普通のDockerイメージを使って似たようなものを作ったことがあるんだ。君たちのサービスの価値(バリュープロップ)をもう少し詳しく教えてくれない?メモリのフォークは技術的にすごい成果だと思うけど、ユーザーとしてどんなメリットがあるのかがピンとこなくて。結局AIに全部任せるなら、AIが問題を解きやすくするために、ビルドの再現性(デターミニスティックさ)の方が重要だと思うんだよね。

3
vimota
約6時間前

これ最高だね。特にスナップショット機能は、長時間動くエージェントには不可欠だよ。俺たちもTemporalとかDBOSみたいな持続的な実行ハーネスでエージェントを動かしてるから、失敗した時にどこからでも復元・再実行できるように、実行のたびに状態をスナップショット化するサンドボックスが必要だったんだ。俺たちはファイルシステムのスナップショットにAgentFSを使ったlocalsandbox[0]を自作したけど、Freestyleとは想定してるユースケースが違うかな。俺たちのは、エージェント用のシンプルなFSとコード実行を全部ローカルでやるためのもの。フルOSじゃないから機能は限られるけど、ローカルで完結させたい場合にはシンプルでいいんだよね。フォークできる機能はマジで面白い。ユーザーが会話を分岐させたり、サブエージェントを並列で走らせたりするのに使えそう。他にも何かユースケースって想定してる?

4
TheTaytay
約5時間前

おお、メモリとディスクをセットでこんなに速くフォークできるなんてすごいね!競合他社でもこれは見たことないよ。マシンを丸ごとフォークできるなら、分岐点ごとにフォークしてWebサイトのUIテストをファジングするみたいな、面白い自動フォークワークフローが作れそう。最近、ビデオだけを潜在空間(latent space)として使ってPCや車を操作するモデルがあったけど(名前は忘れちゃった)、あれのデモで銀行のインターフェースをこんな感じでファジングして、到達可能なUIの状態をめちゃくちゃ洗い出してたのが印象的だったな。

5
shubhamintech
約5時間前

ebpfとxdpをちゃんとサポートしてる数少ないサービスの一つだよね。低レイヤーなものを作る時には必須だし。あとベアメタルのセットアップがマジで異次元すぎる(笑)。

6
_pdp_
約4時間前

いい仕事だね。ただ、VM同時実行数50っていうのはそんなに多くない。AWSとか他のクラウドプロバイダーでも似たような制限はあるけど、AWSだとコストがバカ高いし遅いんだよね。今年の初めに、結局自分たちで組んだよ。特別なことはしてなくて、一定数のマシンをウォームプールに確保しておいて、裏側はFirecracker VMのクラスターで動かしてる。起動時間は全然気にならないね。プールが正常なら、新しいサンドボックスには即座にVMが割り当てられるし。

7
cheema33
約3時間前

今は軽量VM(Proxmoxコンテナ)とgit worktreeを使ってるよ。既存のVMを数秒でフォークできるんだ。君たちのソリューションを使うと、何が良くなるのかがいまいち分かってない。

8
alasano
約2時間前

代替手段はあるにせよ(機能が全く同じってわけじゃないだろうけど)、最高にクールなものを作ったっていう君の純粋な熱量が伝わってくる。素晴らしいと思うよ。君のビジョンがうまくいくよう応援してる!

9
atlasagentsuite
約1時間前

常にうまくいくパターンが一つあるんだけど、それはエージェントのツールを可能な限り「べき等(idempotent)」に設計することだね。そうすると本番環境でのリトライやエッジケースの扱いがガラッと変わる。特にコーディングエージェントの場合、副作用なしで安全に再実行できるツールがあると、システム全体の信頼性が上がるんだ。Freestyleではそのあたりどう考えてるか気になるな。

10
siscia
23分前

CPUがどれくらい割り当てられるのかがよく分からないな。「無制限」っていうのは、8vCPUとかが割り当てられて、あとは使った分だけ課金されるってこと?