ディスカッション (11件)
「自己蒸留(Self-distillation)」という、驚くほどシンプルな手法を用いるだけで、AIのコード生成能力を大幅に改善できることが話題になっています。複雑なプロセス抜きで精度を上げられるこの手法は、今後のモデル微調整のスタンダードになるかもしれません。
まだ論文は読んでないけど、MLのブレイクスルーが一見シンプルに見えるものが多いのは興味深いね。Transformerだってそうだし。後知恵バイアスかもしれないけど。結局、何かを「設計」する上で頼りになる深い基礎理論がまだないってことなのかな。
すごいな、近い将来もっと質の高いコーディングモデルに繋がっていきそう。NNの中で何が起きてるのかを理解するためのもっと良いツールが必要だね。高次元空間を扱うのは人間は苦手だし、今は基本的に色々試して上手くいくか見てるだけだから。
仕組みがマジで面白い。基本的にはコンテキストを考慮したデコードだね。論文によれば、コードにはいくつかの継続パターンが考えられる「fork(分岐)」位置と、構文的に曖昧さがない「lock(固定)」位置が混在しているらしい。つまり人間と同じで、モデルも「探索」モードでの創造的な思考と、「精度」モードでの正確な構文生成を使い分ける必要があるってこと。この論文は、SSDというシンプルな手法がその両方で最適なトークンのランクを上げられることを示してる。LLMの創発的な特性について、まだ新しい発見があるのは最高だ!
TurboQuantとGemma 4の後に、ローカルでGemmaを秒間50トークンで回してる動画を見つけた。これにSimple Self Distillationが加われば、2028年までには安価で制限の緩いコーディングモデルが出てくるだろうし、パワーユーザーは自分のモデルを回すようになるだろうね。経験豊富なエンジニアが「非決定論的なトランスパイラ」として使うなら、もうAIプロバイダーに課金する必要もなくなりそう。 [0] https://www.youtube.com/watch?v=-_hC-C_Drcw
Appleが今でもAIの研究論文を公開しているのに、OpenAIがしていないというのは皮肉だよね。
ループの中で「これが最もエレガントな解法か?」って聞くだけで、LLMの出力が劇的に良くなるのは驚きだよね。(ファインチューニングじゃないけど、それでも興味深い。モデルがそんな簡単にエレガントな解法を見つけられるなら、なぜ最初からそれを選ばなかったんだろう?)
彼らの手法(SSD)が上手くいく理由として挙げてる「精度と探索の対立」という仮説は、adaptive decoding(適応的デコード)でも解決しようとしている課題だね。 https://ai.meta.com/research/publications/adaptive-decoding-via-latent-preference-optimization/
一行まとめ:汎用モデルをベンチマーク用のコードを出せるようにファインチューニングしたら、ベンチマークの結果が良くなった。ただし、もともと得意だった能力については評価をサボったけどね。
LLMにとって自己蒸留(self-distillation)は有力な手法みたいだね。今年1月にMITとETHのチームがSDFTでその有効性を示してるし、この論文にある「On-Policy Self-Distillation」もその流れだ。元のSDFTという名前を尊重してほしいな。自分たちの手法をSSD(Simple Self-Distallation)って呼んでるけど、他でも指摘されてる通り、ストレージのSSDと名前が被ってて紛らわしい。先行研究のSDFTの功績を認めるべきだと思うけど、ベンチマークの一つとして挙げてるだけで、家系的なつながりについてあまり説明してないのは研究論文としてどうかなと思う。 [1] https://arxiv.org/abs/2601.19897 [2] https://self-distillation.github.io/SDFT.html
ほとんどのコードベースには学習用のトレースがない。rlm-workflowを使えば、要件、プラン、実装、差分などの豊富なトレーサビリティを構築できるよ。それを使えば、モデルの自己蒸留やautoagentでのテスト環境強化も可能になる。 https://github.com/doubleuuser/rlm-workflow