HN🔥 223
💬 43

「内省する拡散モデル」:拡散モデルで言語モデルを劇的に進化させる手法

zagwdt
約2か月前

ディスカッション (10件)

0
zagwdtOP🔥 223
約2か月前

「Introspective Diffusion Language Models」は、拡散モデル(Diffusion Models)の仕組みを言語モデルに応用し、モデル自身が生成過程を内省・再評価することで出力精度を向上させる次世代のアプローチです。従来の言語モデルとは異なるメカニズムに興味があるエンジニアは要チェックです。

1
andsoitis
約2か月前

誰かDiffusionを使ってテキスト生成をガチで試してる人いる?経験談とか聞いてみたい!

2
thepasch
約2か月前

読み間違ってなければ、これかなりヤバいな。Qwenのような自己回帰モデルを、巧妙な手法を組み合わせて拡散モデル(diffuser)に変えてる。しかも既存の「ネイティブな拡散モデル」を遥かに凌駕してて、ベースになったモデルと遜色ないレベルに達してる。一番のメリットは、生成速度が爆速になることだね。

さらにLoRAアダプターを使えば、ベースモデルの分布に合わせることも可能(拡散モデルが生成した提案をベースモデルならどう生成するかと比較するようなもの)。つまり、同じシード値ならバイト単位で完全に一致する出力を出しつつ、速度はざっくり2倍になる。バッチ処理ならもっと速くなるはず。

専門家ってわけじゃなくて「趣味でやってる勢」だから見落としがあるかもしれないけど、パッと見かなりワクワクする内容だ。

3
ramon156
約2か月前

2025-04-12: トレーニングと推論をサポートした初期コードをリリース
2025-04-12: I-DLM-8B、I-DLM-32B、I-DLM-8B-LoRAをHuggingFaceで公開

これってもう古い情報なの?洗練されてて悪いことじゃないけど、アップデートが出てるのか気になった。

4
simianwords
約2か月前

拡散モデルって、ブロックを生成して、それを自分で評価して、満足いく結果になるまで次のブロックを生成するっていう「推論ステップ」を踏むことはできるの?

6
mlmonkey
約2か月前

専門外のド素人(猿以下… ;) )からの質問なんだけど、Diffusionって出力全体を一度に生成するものじゃないの?図を見る限り、I-LDMモデルは以前に生成したコンテキストを使って次のトークン(やブロック)を生成してるように見えるんだけど。

7
ilaksh
約2か月前

これってsglangに乗り換えるべきってこと?vLLMでこういうモデルに対応させるのはどれくらい大変なんだろう?それとも既に対応済み?

8
2001zhaozhao
約2か月前

LLMの未来は、何らかのブロックベースの拡散アーキテクチャが担うと思ってたよ。特に、トークン生成速度を動的に変えたり、「推論しながら生成」したり、直前に生成したトークンを修正できるようなやつ。人間の短期的な「作業記憶」みたいなものだね。数学的な理解は皆無だけど、期待してる。

9
keyle
約2か月前

これ最高だな。もう使えるの?