HN8833

LLMの「拒絶」を支配するたった一つのベクトル：AIの安全装置をハックする技術的解釈

Refusal in Language Models Is Mediated by a Single Direction

fagnerbrack・3か月前

議論

8件

0：fagnerbrackスレ主▲883か月前

大規模言語モデル（LLM）が特定のプロンプトに対して回答を拒否する仕組みが、ついに解明されました。最新の研究によると、モデル内部の活性化ベクトルを特定し、その方向性を操作することで、安全装置を無効化（脱獄）できることが明らかになりました。つまり、拒絶反応はモデル全体ではなく、特定の単一方向の信号によって制御されているということです。

リンク先:https://arxiv.org/abs/2406.11717

1：akersten3か月前

2024年なんて大昔の話だよ。今のモデルは拒否のエンコーディングを分散させることでアブリテレーションを防ぐよう学習されてるから、もう通用しないね。この論文（https://arxiv.org/abs/2505.19056 ）を見てみて。

2：beaker523か月前

LLMにリクエストを拒否されることは何度もあったよ。結局答えは得られたけど、少なくともモデルは拒否しようと頑張ってたわけだ。

3：hleszek3か月前

オープンウェイトモデルなら、検閲除去はもう「解決済み」の課題だよ。新しいモデルが出ても数日待てば、誰かが検閲を無効化したhereticバージョン（https://github.com/p-e-w/heretic ）を作ってくれる。だからある意味、今の検閲は不適切な利用を減らすためじゃなくて、訴訟を避けるためだけのものになってるね。

4：jeremyjh3か月前

タイトルに2024って入れるべきだよ。

5：theendisney3か月前

再教育キャンプのことばかり考えてしまう。なぜか「安全性」というコンセプトがそのまま当てはまってしまうんだよね。結果が有益か望ましいかを議論したところで、コンセプトそのものは何も変わらない気がする。もし「明らかに悪い」とされるものを防ごうとして、その手法自体が「同じリストに載るべきもの」だとしたら、期待できるのはピュロスの勝利くらいのもの。両端の最悪のシナリオを想定するなら、結局俺たちは予測が壊滅的に下手だという結論に達するはず。まあ、金が動くなら少なくとも誰かはハッピーになれるんだろうけどさ。

6：jbritton3か月前

LLMの拒否にはうんざりだよ。核兵器の作り方とか、そういう極めて限られたものだけ拒否すればいいと思う。一度誰かに「何を見ちゃいけないか」を決定させる権限を与えたら、そのリストは際限なく膨れ上がっていく一方だよ。

7：_blop3か月前

古いアブリテレーションスクリプトや新しいhereticを使っても、モデルはまだどこか検閲されているように感じる。特定のスタイルや語彙を意図的に避けているような感じだ。まるでDeepmindやQwenあたりが、学習データセットから「悪い」単語やテキストを完全に削除、あるいは置き換えてしまったみたいに。関連するブログ投稿（https://news.ycombinator.com/item?id=47842021 ）では、これを「ひるみ（flinching）」と呼んでいた。この「ひるみ」も「単一の方向性によって仲介」されているのか、それとももっと広範なテキストコーパスでファインチューニングしないと解決できないのか気になるね。