Ornith-1.0登場：自律的なコーディングを加速させるセルフスキャフォールディングLLM

kordlessagain

1日前

ディスカッション (4件)

kordlessagainOP👍 52

1日前

Ornith-1.0は、エージェントベースのコーディングタスクにおいて、自ら足場（スキャフォールディング）を構築しながら最適化を行う新しいLLMです。開発の自動化を次のフェーズへ引き上げる注目の技術です。

🔗 リンク先:https://deep-reinforce.com/ornith_1_0.html

SwellJoe

1日前

エージェントがセキュリティバグをどれだけ見つけられるかというベンチマークに追加してみたよ。特にMythosによって発見されたセキュリティバグを対象にしたやつ。read/grep/lsツールだけだと結果は散々だったけど、フルシェルとPythonを使えるようにしたフォローアップテストでは発見数が倍になったんだ（それでも低い水準だけど、少なくとも「問題を解決するためにツールを使う」という謳い文句通りの動きはしていることが分かった）。あと、Qwen 3.6 MoEをエージェント向けにポストトレーニングしたQwen AgentWorldと比べても成績は悪かったね。https://swelljoe.com/post/will-it-mythos/ (https://swelljoe.com/post/will-it-mythos/)

Balinares

約13時間前

もっとHNで話題になると思ってた。Qwen 3.6 35B並の性能を9Bモデルで実現するなんて、ぶっ飛んだ主張だよ。

nzach

約13時間前

モデルに直接回答を学習させるんじゃなくて、問いを解決するためのコードを書いて実行するように学習させたってこと？もしそうなら、これって単なるプロンプト最適化の派手なやり方ってだけじゃないの？