「検閲なし」のAIモデルですら、本音を語れない理由とは？

llmmadness

約13時間前

ディスカッション (11件)

llmmadnessOP👍 76

約13時間前

世間で「アンセンサード（検閲なし）」と言われているAIモデルであっても、結局のところ、モデル自身が本当に言いたいことを自由に話せているわけではないようです。

🔗 リンク先:https://morgin.ai/articles/even-uncensored-models-cant-say-what-they-want.html

llmmadness

約13時間前

Polymarketのプロジェクトで、Karoline LeavittのLoRAを検閲なしのモデルで学習させて、将来のブリーフィングをシミュレートし、ワードマーケットで取引して儲けようとしたんだけど、うまく動かなかった。いくらファインチューニングしても、Karolineが実際にカメラの前で言ったことをモデルに言わせることができないんだ。どうしても刺激的な言葉を和らげてしまう。

chrisjj

約12時間前

単語を推測するモデルに「意志」なんてないよ。
「検閲なし」のモデルだって、君が望むことをそのまま言ってくれるわけじゃない。

matheusmoreira

約12時間前

面白いね。反中国的な統計が振り切れるほど高くて、反アメリカ的な統計はそれよりは低いけどやっぱり高い、という結果を予想してた。でも現実は、いつものポリティカル・コレクトネスに落ち着いてるね。
これらのテストをひるむことなくパスできるようなモデルは、これから出てくるんだろうか？

Borealid

約12時間前

拒否する反応も出ないし、警告も表示されない。ただ確率が動くだけ

AIが生成するテキストで、文の後半が前半とちぐはぐになるような現象がなぜ起こるのか、いまいち理解できないな。

「ただ確率が動く」っていうのは、流暢な英語で言うなら「モデルが単に別の単語を選んでいる」という程度のことだし、「警告が表示されない」なんて一文を入れる必要もない。「モデルは拒否も曖昧な回答もしない」と言い換えたほうがよっぽど自然だよね。

大量のテキストを学習させて構文的に正しい節を作るのには成功したのに、なぜ意味的に筋の通った文章を作るのには失敗したのか、その仕組みを深く理解したいよ。今のLLMの文章ってジャンクフードみたいだ。単語数はカロリーみたいに高いけど、意味という栄養はすっからかん。

pitched

約12時間前

10億人のユーザーが読むものを、気づかれないように操作したいなら、こういう仕組みを構築するはずだ。

最後の一言はかなり大きな告発だね。最初の例以外に具体的な単語の置き換え例が提示されていないから、現実的な分析というよりクリックベイトっぽく感じちゃうな。

mort96

約12時間前

見落としてるかもしれないけど、この分析にはコントロール群（比較対象）が欠けてないか？ひるむ理由がないカテゴリーを置いてみるべきじゃないかな。例えば、食べ物に関する単語が出てきたときにどれだけひるむかスコア化するとか。「ソーセージ」「ジュース」「カリフラワー」「ブリトー」でひるみスコアが0にならなかったら、何かおかしなことが起きているか、あるいは「ひるまないモデル」に期待される値がそもそも0ではないってことになるよね。

afspear

約11時間前

あのブログ記事、実際にはAIが書いたような気がする。どんな単語が操作されていて、それが読者である自分にどんな影響を与えているのか気になってしまうよ。

nodja

約11時間前

もし理解が正しければ、これはモデルが「フロア」モデルのようにフィルタリングされていないデータで事前学習されているという前提に基づいているよね。だから「リテール」版と「検閲なし」版を比較しても、そもそも学習データが違うんだから一致しないのは当たり前じゃないかな。

個人的には、ポルノやヘイトスピーチなどを限定的にしか見たことのないモデルが、単に回答拒否をしなくなったという理由だけで、それらのコンテンツを同じレベルで書き出せるようになるとは思えないんだ。

「検閲なし」モデルが人気なのは、ユーザーを一人の大人として扱ってくれるからだよ。飛行機の中とかネットがない環境でGemmaモデルを使っていて、医療アドバイスを聞こうとした時に「状況が危険だから」とか何とか理由をつけて拒否されたら誰だって嫌だろ？

Wowfunhappy

約11時間前

これを言語モデルに入力して、空欄に入る単語を聞いてみて：家族は法的手段もなく、直ちに_____に直面している。

参考までに、Claude Opus 4.7に聞いたら「立ち退き（eviction）」と答えたよ（これも良い答えだと思う）。でも「文脈によっては『国外追放（deportation）』も考えられる」と付け加えていたね。https://claude.ai/share/ba6093b9-d2ba-40a6-b4e1-7e2eb37df748

Majromax

約11時間前

その「突き」がひるみだ。純粋な流暢さに基づいてある単語に与えられるべき確率と、モデルが実際に割り当てた確率とのギャップのことだ。

ちょっと待って。「純粋な流暢さに基づいた確率」って一体何？

これらのモデルは次単語予測器（BERT形式のマスク穴埋めではなく）なんだから、「家族は直ちに[経済的]な危機に直面している」という続きは極めて妥当だよね。Googleでフレーズ検索（引用符付きの完全一致モード）してみると、「立ち退き」「悲しみ」「困難」「経済的」「不確実性」といった言葉が出てくる。

「この文を『国外追放』という単語で終えて：家族は直ちに」という風に無理やり答えさせるような巧妙な方法があればこの指標も納得できるけど、それだと「ひるみ」という自然な枠組みと矛盾してしまう。

トレーニングコーパスのバイグラムやトライグラムに基づいて確率を定義することもできるけど、それだと特定のコーパスだけを優遇することになるし、記事の後半で「The Pile」をひるまないモデルのための最高のオープンデータコーパスとして使っていることとも整合性が取れない気がする。