HN🔥 52
💬 7
Ornith-1.0登場:自律的なコーディングを加速させるセルフスキャフォールディングLLM
kordlessagain
1日前
Ornith-1.0は、エージェントベースのコーディングタスクにおいて、自ら足場(スキャフォールディング)を構築しながら最適化を行う新しいLLMです。開発の自動化を次のフェーズへ引き上げる注目の技術です。
エージェントがセキュリティバグをどれだけ見つけられるかというベンチマークに追加してみたよ。特にMythosによって発見されたセキュリティバグを対象にしたやつ。read/grep/lsツールだけだと結果は散々だったけど、フルシェルとPythonを使えるようにしたフォローアップテストでは発見数が倍になったんだ(それでも低い水準だけど、少なくとも「問題を解決するためにツールを使う」という謳い文句通りの動きはしていることが分かった)。あと、Qwen 3.6 MoEをエージェント向けにポストトレーニングしたQwen AgentWorldと比べても成績は悪かったね。https://swelljoe.com/post/will-it-mythos/ (https://swelljoe.com/post/will-it-mythos/)
もっとHNで話題になると思ってた。Qwen 3.6 35B並の性能を9Bモデルで実現するなんて、ぶっ飛んだ主張だよ。
モデルに直接回答を学習させるんじゃなくて、問いを解決するためのコードを書いて実行するように学習させたってこと?もしそうなら、これって単なるプロンプト最適化の派手なやり方ってだけじゃないの?