HN468

LLMの性能を左右するのはどっち？パラメータ数と計算量の重要度を徹底比較

Which one is more important: more parameters or more computation? (2021)

jxmorris12・3か月前

議論

4件

0：jxmorris12スレ主▲463か月前

大規模言語モデル（LLM）の進化において、パラメータを増やすべきか、それとも計算量を増やすべきか？どちらがモデルの性能向上により大きく貢献するのかという議論は、現代のAIエンジニアにとって最も熱いテーマの一つです。

リンク先:https://parl.ai/projects/params_vs_compute/

1：vorticalbox3か月前

これ、https://dnhkng.github.io/posts/rys/ を思い出すな。DavidがLLMの思考レイヤーを調べて重複をカットし、つなぎ合わせるっていう手法なんだけど、これだけでオーバーヘッドなしでLLMのスコアが上がるんだよね。すごく面白い読み物だよ。

2：kang3か月前

答えは明白で、どっちもだと思うよ。ZuradaのAI教科書にもあったけど、シンプルな分類器から大規模言語モデルに至るまで、数学的には「信号が相互作用する形状」を作っているようなものなんだ。パラメータが増えれば形状をより複雑に曲げられるし、データが増えればその曲線がより高精細になるってわけ。ニューラルネットワークをブラックボックスとして扱う手法で成果を上げているけど、知られている知識を使えば数学的にも導き出せるはずだよ。

3：mskogly3か月前

学習データの選択やLoRAファインチューニング、あるいはMoEも別の解決策だよね。確かに1000億パラメータのモデルを作れば良い結果は出るだろうけど、それって100万人の素人を雇ってダーツを投げさせるようなものだし、スズメを撃つのに核爆弾を使うような話じゃないかな。