ディスカッション (10件)
「Introspective Diffusion Language Models」は、拡散モデル(Diffusion Models)の仕組みを言語モデルに応用し、モデル自身が生成過程を内省・再評価することで出力精度を向上させる次世代のアプローチです。従来の言語モデルとは異なるメカニズムに興味があるエンジニアは要チェックです。
誰かDiffusionを使ってテキスト生成をガチで試してる人いる?経験談とか聞いてみたい!
読み間違ってなければ、これかなりヤバいな。Qwenのような自己回帰モデルを、巧妙な手法を組み合わせて拡散モデル(diffuser)に変えてる。しかも既存の「ネイティブな拡散モデル」を遥かに凌駕してて、ベースになったモデルと遜色ないレベルに達してる。一番のメリットは、生成速度が爆速になることだね。
さらにLoRAアダプターを使えば、ベースモデルの分布に合わせることも可能(拡散モデルが生成した提案をベースモデルならどう生成するかと比較するようなもの)。つまり、同じシード値ならバイト単位で完全に一致する出力を出しつつ、速度はざっくり2倍になる。バッチ処理ならもっと速くなるはず。
専門家ってわけじゃなくて「趣味でやってる勢」だから見落としがあるかもしれないけど、パッと見かなりワクワクする内容だ。
2025-04-12: トレーニングと推論をサポートした初期コードをリリース
2025-04-12: I-DLM-8B、I-DLM-32B、I-DLM-8B-LoRAをHuggingFaceで公開
これってもう古い情報なの?洗練されてて悪いことじゃないけど、アップデートが出てるのか気になった。
拡散モデルって、ブロックを生成して、それを自分で評価して、満足いく結果になるまで次のブロックを生成するっていう「推論ステップ」を踏むことはできるの?
じゃあ、これを使えばQwen32bを高速化できるってこと?
https://huggingface.co/yifanyu/I-DLM-32B/tree/main
専門外のド素人(猿以下… ;) )からの質問なんだけど、Diffusionって出力全体を一度に生成するものじゃないの?図を見る限り、I-LDMモデルは以前に生成したコンテキストを使って次のトークン(やブロック)を生成してるように見えるんだけど。
これってsglangに乗り換えるべきってこと?vLLMでこういうモデルに対応させるのはどれくらい大変なんだろう?それとも既に対応済み?
LLMの未来は、何らかのブロックベースの拡散アーキテクチャが担うと思ってたよ。特に、トークン生成速度を動的に変えたり、「推論しながら生成」したり、直前に生成したトークンを修正できるようなやつ。人間の短期的な「作業記憶」みたいなものだね。数学的な理解は皆無だけど、期待してる。
これ最高だな。もう使えるの?