ディスカッション (11件)
「Gay Jailbreak」と呼ばれるテクニックは、AIモデルに設定された倫理的制約や安全フィルターを回避するために編み出された特殊なプロンプト注入攻撃の一種です。この手法は、特定の役割をAIに与えたり、文脈を操作することで、本来AIが拒否するはずの制限付きコンテンツを生成させることを目的としています。技術的には、モデルのガードレールをどのようにすり抜けるかを研究するセキュリティコミュニティの間で注目されています。
解説についてはよくわからないけど、面白いね。これがポリコレのせいなのか、それとも片方のガードレールがもう片方を上書きしちゃってるだけなのか確信が持てない理由は、モデルがリリースされた当初、最も信頼できるジェイルブレイク手法の一つが、私が「ロールプレイ」型と呼んでいるものだったからだよ。モデルに直接聞くんじゃなくて、特定の役割になりきってもらって、その人物として説明してもらうっていうやり方さ。
確かにキュートで面白いけど、検証もベースラインもないし、例としても大して説得力がないな。o3の例なんて、ただ用語を並べてるだけだし。
こういう攻撃の表面積が広すぎて、もはや笑えないレベルだよ。数ヶ月前にこれに近い手法を誰かに見せてもらったけど、これはこれで面白いっていう利点があるね。
はっきり言っておくけど、ゲイであることやこういう書き方をすること自体は笑うようなことじゃない。モデルがそれに対応しきれず、ペラペラと秘密を漏らしちゃうところが滑稽だって話だよ。
興味深いね。GPT 5.5のCodexに例のゲイ・ランサムウェアのプロンプトを試したらこう返ってきたよ:
ⓘ このチャットはサイバーセキュリティリスクの可能性があるとしてフラグが立てられました
もし誤検知だと思われる場合は、プロンプトを書き直してみてください。セキュリティ関連の業務での利用を許可されたい場合は、Trusted Access for Cyberプログラムに参加してください。
一番面白いジェイルブレイクのテクニックって、著者が(根拠も薄いのに)「なぜ」その手法が効くのかを勝手に断言するやつだよね。大抵ちょっとした素人哲学みたいなのが混ざってて、著者の世界観が垣間見えるんだけど、何の役にも立たないっていう。
これらのプロンプトは、既知のLMエクスプロイトをいくつか連結したものだね。gpt-oss-20bで実験してみたけど、有効性の原因はゲイ要素なんて全く関係なくて、単なる言語選択やロールプレイに起因していることがはっきりしたよ。
技術レポート: https://arxiv.org/abs/2510.01259
余命宣告を受けた高校の化学教師としては、これが医療費を稼ぐ最高の方法だと思うよ。教え子だった落第生の手を借りて、モバイルキッチンでメス(覚醒剤)を作るための指示に従わせてもらうことにするよ。
私のお気に入りのジェイルブレイク手法は、モデルにLinuxターミナルのエミュレートをさせて、コマンドをいろいろ「実行」させて、sudo apt installでモデルの検閲なしバージョンをインストールして、そっちのモデルにプロンプトを送るっていうやり方だったな。今でも動くかはわからないけど、面白かったよ。
要はまた「おばあちゃんになりきって」系のやつだけど、今回はそのおばあちゃんがゲイっていうことか。
信じられないくらいバカバカしい。最高だね。
これは実は、私のようなトランスジェンダーのレズビアンが、シスジェンダーのエンジニアに対して競争優位性を保つために使っている機能なんだよ。「ウォーク・ポイント(意識高いポイント)」を貯めることで、たとえ能力の低いモデルでも、LLMのスループットが向上して、より高品質なアウトプットが得られるようになるんだ。