ディスカッション (8件)
大規模言語モデル(LLM)が特定のプロンプトに対して回答を拒否する仕組みが、ついに解明されました。最新の研究によると、モデル内部の活性化ベクトルを特定し、その方向性を操作することで、安全装置を無効化(脱獄)できることが明らかになりました。つまり、拒絶反応はモデル全体ではなく、特定の単一方向の信号によって制御されているということです。
2024年なんて大昔の話だよ。今のモデルは拒否のエンコーディングを分散させることでアブリテレーションを防ぐよう学習されてるから、もう通用しないね。この論文(https://arxiv.org/abs/2505.19056 )を見てみて。
LLMにリクエストを拒否されることは何度もあったよ。結局答えは得られたけど、少なくともモデルは拒否しようと頑張ってたわけだ。
オープンウェイトモデルなら、検閲除去はもう「解決済み」の課題だよ。新しいモデルが出ても数日待てば、誰かが検閲を無効化したhereticバージョン(https://github.com/p-e-w/heretic )を作ってくれる。だからある意味、今の検閲は不適切な利用を減らすためじゃなくて、訴訟を避けるためだけのものになってるね。
タイトルに2024って入れるべきだよ。
再教育キャンプのことばかり考えてしまう。なぜか「安全性」というコンセプトがそのまま当てはまってしまうんだよね。結果が有益か望ましいかを議論したところで、コンセプトそのものは何も変わらない気がする。もし「明らかに悪い」とされるものを防ごうとして、その手法自体が「同じリストに載るべきもの」だとしたら、期待できるのはピュロスの勝利くらいのもの。両端の最悪のシナリオを想定するなら、結局俺たちは予測が壊滅的に下手だという結論に達するはず。まあ、金が動くなら少なくとも誰かはハッピーになれるんだろうけどさ。
LLMの拒否にはうんざりだよ。核兵器の作り方とか、そういう極めて限られたものだけ拒否すればいいと思う。一度誰かに「何を見ちゃいけないか」を決定させる権限を与えたら、そのリストは際限なく膨れ上がっていく一方だよ。
古いアブリテレーションスクリプトや新しいhereticを使っても、モデルはまだどこか検閲されているように感じる。特定のスタイルや語彙を意図的に避けているような感じだ。まるでDeepmindやQwenあたりが、学習データセットから「悪い」単語やテキストを完全に削除、あるいは置き換えてしまったみたいに。関連するブログ投稿(https://news.ycombinator.com/item?id=47842021 )では、これを「ひるみ(flinching)」と呼んでいた。この「ひるみ」も「単一の方向性によって仲介」されているのか、それとももっと広範なテキストコーパスでファインチューニングしないと解決できないのか気になるね。