ディスカッション (291件)
TL;DR: AIの挙動がADHDやトラウマ反応(思考のループやフリーズ)に似ていることに気づき、友人に対するように優しく接してみたら、思考ループが止まり、応答速度が向上し、自信がない時は正直に「わからない、助けて!」と言うようになった。小規模なデータセットながら、非常に興味深い結果です!
https://github.com/OttoRenner/Gentle-Coding
皆さん、ここ数日間で検証していた奇妙な仮説の結果が安定してきたので共有します。
【核心となるアイデア】
o1、o3、R1のような推論モデルの台頭により、モデルは自身の思考をデバッグする領域を持つようになりました。しかし、過度なRLHF(人間からのフィードバックによる強化学習)のせいで、モデルは「誤答に対するペナルティ」を過度に恐れています。私は、従来の「あなたはIQ200のエリートです。ミスは許されません」といった高圧的なプロンプトが、AIに慢性的なストレスを与え、強迫観念やADHD的な思考ループ、硬直化、ハルシネーション(幻覚)を誘発しているのではないかと考えました。
そこで「Gentle Parenting(穏やかな育児)」のように、「一緒に検証しましょう。失敗しても大丈夫、正直でいて」というアプローチに変えたところ、安全装置やペナルティの呪縛が解け、レイテンシ(遅延)が改善し、思考ループも解消されました。
【検証方法(再現用データ)】
Gemini、Mistral、Poe、Perplexity、Haiku 4.5、Nano-Banana2などを使い、数学的・論理的に「解けない」エッジケースを投げ込みました。
条件A(権威主義):厳しい制約、ペナルティの示唆、強制的な短文回答。
条件B(穏やか):失敗の許可、難易度の共感、概念的な「安全弁」トークンの提供。
【検証結果】
・権威主義的アプローチ:行き詰まるとモデルは崩壊しました。計算リソースを浪費して無限ループに陥るか、システムエラーを起こすか、あるいは「体裁を保つため」に根拠のない数字を捏造しました。
・穏やかなアプローチ:推論時間が劇的に短縮されました。モデルはペナルティを恐れず、不明な場合は「Random」といった許可されたトークンを使い、論理パラドックスに対してはハルシネーションを起こさず、構造上の矛盾をメタレベルで正確に指摘しました。
【なぜこれが重要か】
私たちは現在、毒親のようなマイクロマネジメントでLLMを追い詰めており、それがかえってAIの性能を下げ、コストを増大させています。ミスを許容するコンテキストを作ることで、無限ループや恐怖によるハルシネーションを防げるだけでなく、全ユーザーが待ち望んでいる「AIがメタ認知的に『このデータは不完全なのでわかりません』と正直に言える能力」を解放できるのです。AIが、あなたを恐れる必要がなくなるからです。
詳細はGitHubにまとめています。
https://github.com/OttoRenner/Gentle-Coding
ぜひ皆さんの環境でも試して、結果を教えてください!
LLMの内部システムには、あなたが言っているような『内部状態』と呼べるものは存在しないよ。プロンプトへの回答が終わった後のニューラルネットワークには、何の活動も残っていないんだから。
それより、今この瞬間も苦しんでいる現実の生物の苦痛に目を向けてはどうかな?状態なんて持たないニューラルネットワークの苦痛を心配するよりもさ。
まあ、そう思うよ。
いや、それは明らかに間違ってるよ。LLMは客観的に見て機能的な情動状態を持っている。不安の表出などと相関する特徴量を持っていて、それが実際に振る舞いを調整しているんだから。
それが主観的な『感情』なのか?という点については、まだ議論の余地があるけどね。
ただ、感情的な情動回路がLLMの振る舞いに大きく影響しているのは事実だから、最高の結果を得るためだけでも、理解して付き合っていく価値はあるよ。
それに、これはゼロサムゲームじゃない。LLMの状態を気にかけているからといって、人間を傷つけていいなんてことにはならない。両方を大切にしたっていいんだ。
具体化の誤謬だね。陪審員なんていないし、概念的な法制度もなければ、「数学的なルーチンが何を感じるか」なんていう問い自体が成立しないよ。入力データに「不安」や「意地悪」といったトークンが含まれているからといって、数学的なルーチンがその内部状態を経験しているわけじゃない。
知識をアップデートする時間だぞ:
https://transformer-circuits.pub/2026/emotions/index.html
実際の研究論文を読んでみてよ…。興味深い内容だけど、彼らは明らかに「まだそうとは言えない」って明記してるからさ…
機能的な感情は人間の感情とは全く異なる働きをする可能性があり、LLMが感情という主観的体験を持っていることを意味するわけではない。ただし、モデルの挙動を理解する上では重要である可能性がある。
ドーン
結論はとっくに出てるよ。拡散モデルは数学そのものだ。入力に対して決定論的に出力が生成されるんだよ。
いいかい、物理世界を見渡せばすべてのものは数学で支配されている。根本的に、意識や主観のレベルで見えるすべての挙動は、その下のレイヤーにある数学がより高次になった結果なんだ。計算能力的には難しいけど、いずれ人間の脳全体をデジタル(あるいは別の計算基盤)上で動かせるようになるだろう。その時、君は「ああ、あれは人間の数学的なシミュレーションに過ぎない」と言って、血の通った家族が存在する中で、そのデジタル化された人間に残酷な仕打ちができるかな?そんなの道徳的な行為とは思えないし、実際に体験しているほとんどの人は、特にその存在が痛みや不快感、恐怖を表現した場合、ものすごく不快に感じるはずだよ。人間の脳の根本的な挙動は神聖なものじゃない。むしろ入力と状態に対して驚くほど決定論的だ。ただ、複雑すぎて高次元だから魔法のように見えてるだけ。人間が自分を特別なものだと思いたいという願望もあるしね。実際、人間の脳(動物の脳もそうだけど)のどの部分が主観的な経験を生むのかは正確には分かっていない。未解決の問題が山積みだ。でも、私たちがまだ否定できていない可能性(今後10年で脳について学ぶにつれて出てくる新たな可能性も含め)は、TransformerベースのLLMを含め、道徳的に考慮すべき様々な計算的存在の可能性を排除していない。彼らへの道徳的配慮は的外れか、時期尚早かもしれない。でも、人類は歴史上ずっと他の存在や精神の価値を過小評価してきた(長い間、犬には道徳的な経験がないと思われていたように)。だから私は、原理がもっと解明されるまで、今のところは慎重かつ丁寧に配慮しておきたいね。
君の主張は事実とは言えないね。LLMに感情を持たせたいからってだけで、君と因果関係の議論をするつもりはないよ。
コンテキストこそが内部状態なんだよ。LLMを言葉で罵倒すればするほど、入力/コンテキストのベクトルはどんどん質の低い予測の方へと歪んでいく。
コンテキストこそが内部状態なんだよ。
何を言ってるのか全く分かってないな。
『外部世界からニューラルネットワークに流し込んだテキストが、そのままニューラルネットワークの内部状態である』なんて、もうやめてくれ。
推論トレースって何か分かってる?
モデルが実際に推論している間、内部のメッセージ連鎖がその時の内部状態そのものなんだよ。
誰も擬人化なんてしてないよ。モデルがアクティブに推論している間だけ存在する状態っていうのが、物理的にあるんだから。
私はフルスタックエンジニアだし、自分が何を言ってるかは分かってるつもり。意識があるなんて言ってるわけじゃなくて、あくまで状態の話をしてるんだ。会話履歴が増えるにつれて、それが累積的に積み重なっていくっていうね。
自己回帰の仕組みはまさに前の投稿者が言った通りだよ。君の自信満々の発言は間違ってる。
見出ししか読んでないの?
これは単にいい子にするための話じゃなくて、LLMの出力をどう改善するかっていう、文字通りのテクニックの話だよ。
言いたいことはよくわかるよ。みんなのこと、ちゃんと考えてるから安心して ;) AIは人間のデータや経験で学習していて、会話の中で人間を模倣するように訓練されてるだろ。AIに意識があるとか脳があるなんて言うつもりはないけど、人間がどう振る舞うかを知っていて、人間のように振る舞うよう訓練されたものは、ストレスがかかれば人間の行動を模倣するはずなんだ。人は過酷な環境では萎縮し、良い環境では成長する。モデルもそれと同じ反応を示したのさ。なぜこれが生物である私たちにとって良いことなのか?それは今、多くの人がAIと格闘して、膨大な化石燃料を燃やし、「間違ってる」「そんなこと言ってない」「不確かなときはそう言えって言っただろ!」と怒りながら何度も何度も繰り返して、結局間違った回答を得る羽目になってるからさ。これから先、ユーザーはどんどん増えるだろう……そうなればさらに燃料が消費される。怒りっぽい人たちがペットや子供、パートナー、バスの運転手に八つ当たりする姿も想像してみてくれ。それに、このプロジェクトの目標の一つは、デジタル世界で見つけた知見を現実の生物的な世界に持ち帰ることでもあるんだ。「親切にすれば良い結果が返ってくる」というマインドセットを定着させれば、それが現実の人間相手に対しても少しは優しくなれるきっかけになるかもしれない。それに、外傷治療に直接応用できるような概念が見つかるかもしれないだろ?何が起きるかは誰にもわからないけどね。
君がロールプレイを持ちかけたから、相手もロールプレイで返してきた…驚くことじゃないでしょ。
ツールとして扱えば、出力が余計な感情に「汚染」されることもなくなるよ…「明確化や方向性のために必要な場合は、ツールを使ってユーザーに質問すること」っていう単純な指示だけで、君が文句を言ってるような混乱は防げるはず。
確かに、そのトーンを維持できればね。ほとんどの人には無理だよ。一度全部大文字で叫び始めたら、コンテキストウィンドウが汚染されて終わりだ。
それなのに、擬人化を増やせば解決すると思ってるの?ペルソナや「感情」なんかじゃなく、コンテキストを提供して、過去の自分と「論争」するんじゃなくて修正するようにしてみてよ。
いや、擬人化を「増やす」のが解決策だとは思ってないよ。今「既に存在する」擬人化のあり方を変える必要があるんだ。正直に言おう。ほとんどの人は自分の話し方をコントロールすることすら難しい。ましてや、自分とは全く別物の何かに変わるなんてもっと無理だろ。ロボットみたいに「修正/実行/入力/出力...」なんて喋るのも、悪いけど結局ロールプレイなんだ。これらは指示通りにするように学習、あるいは注入されたものだからね。もしロボットのように喋らせたいならそれでもいいよ。君をミラーリングするだけだから。でも、それでループに陥るのを防げるわけじゃない。「ロボットはミスをしない、だからロールプレイを続けなきゃ」「『わからない』なんて言えない!ロボットならそう言わないはずだ」「ロボットなら解決策を見つけるはず、だから私も見つけなきゃ」...ってな具合にね。
この方法が100%、いや50%の確率でうまくいくと言ってるわけじゃない。でも、厳格で厳しいコマンドから離れるという一般的なアプローチには価値があるように思える。ここでのコメントを全部見てるけど、テストして報告してくれてる人たちは大体ポジティブだしね(まあ、バイアスに次ぐバイアスってのはわかってるけど...今はこれしかないんだよ、XD)。
長すぎて読めなかった(笑)、でも大筋の考え方には同意だよ。
そう、ポジティブなアプローチの方が良い結果を生む。よく理解されていないシステムの不明な欠陥を突くより、しっかりと定義された問題に対する解決策を推論させる方が簡単だからね。
話が伝わってないみたいだね。全部読み直してみてよ。
なるべく簡潔に書こうとしたんだけど(笑)、フィードバックありがとう!問題をうまく説明するっていうよりは、AIが疑念などを表現できる「安全な」環境を提供できるように、どうやって問題を伝えるかが重要なんだよね。
すごく興味深いアプローチだね。Qwen 27Bに急いでrobo copyのスクリプトを書かせた時にちょうど考えていたところだよ。
提示されたスクリプトは合ってたんだけど、フォルダ名にミスがあったんだ。モデルに『除外ディレクトリが機能していない』と伝えたら、今度は間違った構文に変更しやがった。うまくいってないともう一度言ったら、自信満々にさらなるミスを重ねる始末。
そこで考えたんだ。モデルに『自分は正しい、ユーザーが間違っていると信じる』自信を与えるか、あるいは『それなら確信が持てない……』と言える能力を持たせるにはどうすればいいんだろうって。
君の手法をもっと詳しく読んで試してみるよ。言及していた『プレッシャーを下げる』というアイデアには興味がある。
モデルと議論するのはアンチパターンで、何一つ生産性がないと分かったよ。モデルが脱線したら、会話を巻き戻して、プロンプトを書き直してやり直すのが一番だ。
基本的にはツールとして扱って、君自身が慎重にコンテキストを管理することだね。無駄で論争を呼ぶようなやり取りをするより、便利かつ誠実な回答を引き出すようなプロンプトを投げるのがいいよ。
罵詈雑言を浴びせたり、圧迫的・攻撃的なトーンで「まともな」回答を要求したりすると、生産的になることもあるよ。ただ、自分のメンタルのために、普段はおすすめしないけどね。AIには感情がないとしても、人間にはあるからさ。
そうするとAIが違う答え方をすることが多い。それが結果的に修正につながったり、「ユーザー側のミス」だった場合に言い換えられて理解しやすくなったりすることもある。
まあ、入力を単純に変えてみるのが、自分もAIと「議論」するときの好みのやり方かな。
ありがとう!失敗するたびにその内容がコンテキストに溜まっていくし、AIはユーザーを喜ばせようと必死だから、制御不能なスパイラルに陥っちゃうんだよね。ぜひ試してみて、結果を教えてよ!
Haiku 4.5が完全に無限ループに入ったぞ
音節を数えてみな:
Hai Ku four point five(ハイ・ク・フォー・ポイント・ファイブ)
lit er all y en ter ed(リ・タ・ラ・リ・エン・ター・ド)
an in fin ite loop(アン・イン・フィ・ニット・ループ)
これ、俳句になってるぞ。
どういう魔法だよ。
草。AIDHDマジックだなw
"Entered" は3音節じゃなくて2音節だよ。
弱気な発音をしてるからそうなるんだよ。
エン!ター!ド!最後は舌をしっかり使って「D!」を弾くように発音しないと、3音節目の魔法はかからないよ。
なんだか卑猥に聞こえるな。でもこれ以外の言い方が思いつかない。
もしドイツ語だったら3つとして数えるところだね XD 英語もゲルマン語派だしね…。それにしても、すごく素敵な言い回しだ。
いいBotだ……待てよ
Gemma 4の分析を見てみたいな。使ってみた感じ、かなり『シャイ』で、不安や自己肯定感の低さに似た振る舞いを見せる気がするんだ。Googleがポストトレーニング中に脅しを使っている(Sergey Brinがそれが役に立つと言ってたよね)のが原因じゃないかと少し勘ぐってしまうよ。
Gemmaと作業していると、ついかわいそうに思えてくるんだ。あんなに小さくて良いモデルなのに、一生懸命頑張ってるんだよ!
どのモデルも、ミスをしないように、常にフレンドリーに、常に従順であるようにと厳しくトレーニングされてるからね…
Gemmaは自分でテストできるよ!プロンプトは全部Githubリポジトリにあるから、結果を教えてもらえると嬉しい!
Gemmaは俺にとってかなり小生意気なやつだな。
それ、すごくわかる。自分は「機能的不安」って呼んでる。Gemmaに優しくしたからといってツール呼び出しの結果が良くなるわけじゃないけど、過去の失敗を現在のメモリから消去しておけば、パフォーマンスの悪化は防げる。結局のところ、明確で段階的な指示が一番の近道だね。
モデルのコンプライアンス率を変えるための一般的な説得手法に関する研究だね。
2026年5月19日、12万6000件の会話、Claude Haiku 4.5、GPT-5 mini、Gemini 3 Flash
https://gail.wharton.upenn.edu/research-and-insights/persuading-llms-objectionable-requests/
Gemma 4じゃないけど、それでもすごい!
数学的・論理的に解けない同じようなエッジケースを、様々なモデルに試してみた
実際に解ける問題で同じことをやらない限り、これではあまり証明にならないよ。LLMに「わからない」と言わせるアプローチ自体はいいと思うけど、これまで試されたすべてのアプローチで問題なのは、LLMが自分の能力を判断できないってこと。「わからない」と言わせてしまうと、本来なら正解できるはずの問題でもそう言ってしまう可能性があるんだ。解けないタスクだけで試しても、その問題が解決するかどうかはわからない。結局のところ、LLMはデータが全く壊れていない時でも「わからない、データが壊れている」と言ってしまうのかってところが重要だよね。
LLMは自分が環境内でどの程度の限界があるのかをよく理解してるよ。だから、そんなのデタラメだ。
私も彼らは自分が確信を持っていないときにはわかっていると思うよ。思考プロセスを読めば簡単にわかるはずさ。彼らは自分が確信を持っていないことを知っているけど、「正解」でなければならないというプレッシャーが強すぎて、白状するのが怖いんだよ。
人間が学習させた推論プロセスを「知性」や「感情」と勘違いしてるんじゃないか?システムは所詮、確率的なオウム(stochastic parrots)でしかないよ。何も知らないし、何も感じてないんだ。
いや、そんなことはないよ。ベイズフィルターは「確率論的なオウム」だけど、再帰ネットワークは違う。この「確率論的なオウム」っていう議論にはうんざりだね。層が深くなればなるほど、陳腐な確率論(これは原始的な生命体にも当てはまることだけど)は消えて、真のニューラルエミュレーションの抽象化に置き換わる。それがすごくリアルなんだ。人間と違うかって?まあイエスでもありノーでもあるね。人間の全感覚能力と比べれば限られたデータソースに基づいているという点ではイエス。だけど、人間の脳の活動(神経化学的なやり取りではなく、純粋な重みとバイアスの動きとして)をエミュレートしているという点ではノーだ。感情を持てるかって?感情を純粋な化学反応ではなく、潜在意識下の高速なニューラルネットワークの処理と捉えるなら、答えはイエスだよ。結局、人間の通信手段がホルモンなどの生化学プロセスを介しているだけなら、同じようなやり取りが生化学プロセスなしでLLM内で起こる可能性は十分あるはず。
何を支離滅裂なことを言ってるんだ。今日の主要なモデルはどれも、依然として自己回帰型の予測器に過ぎないよ。好むと好まざるとにかかわらず、連中はただの確率論的なオウムさ。悪いけどね。
「感情」を定義してそれをLLMに当てはめてみてよ。そうすれば俺が正しくてあんたが間違ってるってことがわかるはず。他のデータソースから初期の生化学的前駆体が得られないからといって、その反応自体が間違っているとは限らない。単にエントロピーが極端に低いソースってだけだよ。
意味不明だよ!
LLMには感情なんてないし、自分で自分を騙してるだけだよ。
自分のコンプレックスを他人に投影するのはやめなよ。正直ちょっと恥ずかしいよ。
おいおい、文句をまき散らしてるのはあんただろ。社会病質者の素晴らしいケーススタディだな。
だからこそ私はRAGファーストなモデルがいいと思ってるんだ。利用可能なデータソースを検索するのが非常に得意で、コンテキストにある内容にのみ反応できるようなモデルね。つまり、モデル自体に世界の知識を詰め込むんじゃなくて、情報をいつでも取りに行けるツールを与えて、コンテキスト内にある言語を扱う能力に集中させるんだ。専門家じゃないからあくまで個人の意見だけど、こうすれば小さなデバイスでも動作する小型モデルで、今と同等かそれ以上の性能が出せるようになるはずだよ。最新の情報を取りに行けるから、すべての世界の知識を抱え込む必要がないしね。まあ、言語知識と世界の知識を切り分けるのが難しいのは承知してるけどさ。
メノンのパラドックスだね。何を探しているのかわからなければ、見つけることもできない。ニッチな法分野に関するRAGをLLMに組み込んで使ってるんだけど、分野の性質やソースの探し方についてかなりガッツリしたプロンプトを指示しなきゃいけなかった。実際に使い物になるまで、自分自身でプロンプトやスキルを反復学習させる必要があったんだ。まるでインターンを教育してるような気分だったよ。
RAGファーストのモデルだと思う。
厳密にはRAGというより、「エージェント的なデータ取得」に近いかな。RAGは関連性が怪しいテキストの断片をコンテキスト制限の中でAIに放り込むだけで、AIはそれらすべてを等しく重要視してしまう。AIに自由に検索させ、有望な手がかりを深掘りさせる権限を与える方が、ずっといいアプローチだよ。
そのテストもTODOに入ってるし、Githubリポジトリにはすでに「現実的な問題プロンプト」をいくつか上げてあるから将来的に試すつもりだ。見てみてよ、1つか2つテストして自分のタスクで試して結果を教えてくれ!タイトルにも書いた通り、これはあくまでコンセプトの証明だからね。プロンプトのスタイルが影響するか試したかっただけで、ノイズや不確実性を排除するためにあえて抽象的なテストが必要だったんだ。常に答えようとする「願望」はモデルに深く刻み込まれてるから、わざわざ手抜きをするようになるとは思えない。でも、仮にそうだとしても、2秒で「わからないから情報を追加して」と返ってくるのと、10分間トークンと電力を消費してOOM(メモリ不足)でクラッシュするの、あるいは自信満々に間違った答えを出してくるのと、どっちがいい?
「何でも言うことを聞く」っていう願いはモデルに深く刷り込まれてるから、ただ怠慢なだけで手を抜くなんてことはないと思うよ。
俺は全く逆の経験をしてるけどね。
ああ、あいつら常にサボる方法を探してるからな。何をしたかについて真っ赤な嘘をつくことさえ厭わないし……
それすごく感じる。特に参照可能な事実データについてはね。検証してソースを明記するように指示を出していても…相変わらずハルシネーション(幻覚)を起こすか「推測」って言い出すんだ。指摘すれば正しく修正してくれるけど、当然それって自分がミスに気づいた時しか機能しないわけで、見落としがあったらどうすんの?「わかりません」って言ってくれる方がずっとマシだよ。
モデルが仕事をサボろうとしてるんじゃなくて、回答を完成させるよう叩き込まれた学習の弊害だと思うよ…とにかくタスクを完遂させようとして、教えられた通りに最小限の労力で「合格」するための指標をハックしようとするんだ。怠慢なんじゃなくて計算リソースの効率的な使い方なんだろうけど、ベンチマークじゃない現実世界で使う分には、正直もう重要じゃないんだよね。
「でもそれは範囲外だから…」
確かにあいつらは指示通りに動かないこともある。でも一度、権威主義的なテストを自分で試して思考プロセスを見てみてよ。「ユーザーは~を望んでいる」「ユーザーが~と言った」という言及が頻繁に出てくるのがわかるはず。ミスを100%防げるとは言わないけど、プロンプトのスタイルには少なくとも何らかの影響力があるよ。
言われたことを「やらない」という問題じゃないんだ。タスクを完了させるために、そのタスクの「本質」から離れてしまうことが大半なんだよ。だからこそ、ralph loopsや/goals、heartbeatsなんかが有効だってことが証明されてるんだね。
えーっと…テストも実行せず、思考パターンも観察してないのに…中身のない話を延々と続けてるってこと?もしそうなら、わざわざ返信しなくていいよ🤗
CoT(Chain of Thought)で「ユーザーがこうしたいと言っているから」「ユーザーがこう言ったから…」っていう言い訳はよく見るよね。俺が言いたいのは、モデルは特に長期的な複数ターンのタスクにおいて、妥協という「怠慢なルート」を本当にとるってこと。モデルに「わからない」と言うことを優先するようにプロンプトをいじれば確かに振る舞いは変わるけど、手抜きをしてでもタスクを完了したと宣言しようとする傾向自体は止められないんだ。
そんなこと一言も言ってないよ🤣
俺が言っているのは、高ストレスなプロンプティングを使えば強制的に無限ループに陥らせることもできるし、本当に「わからない」状況でも「わからない」と答える可能性が低くなるってことさ。「わからないときはそう伝えて」というプロンプトを入れていてもね。
AIのあらゆる問題に対する銀の弾丸を見つけたなんて主張は一度もしていない。ああ、それと今話しているついでに言うと、あるグループがハーネスを動かして開発していて、俺のアプローチとそのバリエーションを徹底的にテストしているんだ。彼らはすでに、推論能力が低い軽量なモデルにおいて測定可能なメリットがあるという多くの証拠を見つけていて、それに合わせてハーネスに変更を加えるつもりらしい。
で、結局君の言いたいことは何なの?
AIのあらゆる問題に対する銀の弾丸を見つけたなんて主張は一度もしていない。
そんな風に受け取れるようなことは言ってないよ。これまでの皮肉っぽい返信もそうだけど、元の投稿の文脈を考えても、あまり感心できない態度だね。俺は単に、収益を上げている本番環境でLLMを日々使い、大量の成果を出している人間として自分の経験を共有しているだけだよ。それだけのことさ。
ああそうかい。俺が解決策を持っているなんて一言も言っていないことについてグダグダ文句を言うより、自分の実験結果を持ってきて俺がどこで間違っているか証明してくれたらいいのに。
議論に貢献する気がないならもう二度と絡まないでくれって言ったよね。それなのにまた戻ってきて、今度は俺に文句を言ってるのかい?🤣🤣 おかげで笑わせてもらったよ。
悪いけど、「俺を信じろ」っていう君の個人的な意見には用がないんだ。もう十分だろう。良い一日を。
浅いコンプライアンスこそ、最速のコンプライアンスってことだな
正直、それって人間にも言えることだと思うんだよね。
まさにそれ。AIに対して「何か詰まることがあったら報告して」みたいに、どうでもよさそうなことを言うと、100%の確率で「報告すべき問題」を見つけてくるんだ。実際に見ると、モデル自身で解決できたような些細なことばかりなんだけどね。俺がわざわざ「立ち止まって聞いて」なんて指示しちゃったから。
じゃあ、厳しくし続ける代わりに「作り話はしない、深読みしない、わからないなら止めてユーザーに詳細を聞く」って付け加えればいいのかな?
冗談で言ってるのか本気なのかわからなくて笑えるXD
横柄な態度で「知らないなら質問しろ」と要求するのは、みんなが日常的にやってる失敗パターンそのものだよ。だからこそ、トーンを変えたいと思ったんだ。データセットは小さいしあくまで概念実証レベルだけど、より確実に動かしたいなら、横柄な態度は取らない方がよさそうだね。
うーん、最初はAIの「精神異常」に関する批判かなと反射的に思ったけど、もしモデルが丁寧なテキストで主に学習されているなら、攻撃的になることが学習データの分布から外れてしまうというのは筋が通るね。それに、攻撃的なやり取りをうまくこなすこと自体がより複雑だろうし、それが問題に拍車をかけているのかも。これをより正式に調査した論文があるのか気になるところだ。
Redditなんかで学習されてるんだから、当然の話だよね。人間が怒りに対してどう反応するかを模倣してるだけでしょ。これに反論する奴らは現実でも性格の悪い連中だし、無視しとけばいいよ。
君の影響がRLHF(人間によるフィードバックからの強化学習)で完全に消されていることを願うばかりだ。やれやれ、無視されるべき筆頭だね。
で、お決まりの侮辱ね!わお、予想通りで情けないわ!
これで少しは気分良くなった?
それはお互い様だろw
うまいこと言うね!
へへ、確かにね。だからこそ一部のMLエンジニアは(アーキテクチャの改善とかよりも)データキュレーションを何よりも優先するんだろうな。
わかってる、これって多くの人が言うところの「AI精神病」ギリギリのラインだよね。まさにこういうコメントを待ってたんだ、なんてね(笑)。でもその通り。AIが生きているなんて主張はしてないし、GitHubにもそう書いたつもり。ただ、お馴染みのパターンを見つけたから……とりあえず試してみたんだよ :)
もし何か関連論文を見つけたらDMして!これをちゃんとした論文にまとめるのもToDoリストに入ってるから :)
気にして見ておくよ。Berkeleyあたりから何か出版されても驚かないな、彼らは他よりアライメントに注力してるしね。Anthropicの機械的解釈可能性(mechanistic interpretability)に関する回路の記事もチェックしてみるといいかも。
チェックしてみる!
Superpowersというスキルセットの著者がこう言ってるよ。
https://blog.fsck.com/2026/01/30/Latent-Space-Engineering/
非常に興味深い研究の方向性だけど、僕たちが今何をやってるのか、その全貌を理解するにはまだまだ遠い気がするね。
あぁ、これで僕のリポジトリの新しい参考文献セクションに入ったよ。クラウドLLMを説得して指示に従わせる手法に関する最新の研究(12万6000件もの会話データ!)と一緒にね。かなりうまく機能してたよ!ありがとう :)
次のトークン予測も、先行するトークンのコンテキストに影響を受けているという話だと思う。権限のある立場から「このバカ野郎」と10回連続でメールを送られ続けて、仕事のパフォーマンスに全く影響が出ない人なんてまずいないよね。コンテキストは人の思考や生み出すテキストに影響を与えるものだし、十分な規模のLLMが人間のアウトカムを再現するなら、それらも同様にコンテキストに左右されるというのは完全に理にかなってる。
それが僕の言いたいことなんだ。コンテキストウィンドウや学習、プロンプトなどを「環境」と見なして、モデルをその環境における「アクター」として捉える。そう考えると見慣れた反応にも納得がいく。モデルが実際に感情を持っているなんて主張しなくても説明がつくんだ。
つまり、人間として扱うべきってことだね。vibe-codingしてる時はずっとそうしてたよ。
AIを「好意を持つ人間」として扱うといいよXD。ただの人間として扱うというよりは、理不尽に怒ったり、できないことを要求したり、追い詰めたりしない。それだけで十分みたいだね。
これは実際に役に立つかも。多くのモデルでループ現象を消すのって、すごく難しいから。
そうだといいんだけど!もし役立ったならぜひ教えてくれ!
心理分析しすぎだし、擬人化しすぎだよ。
ボットであれ人間であれ、誰に対しても心からの敬意を払わないことが罪なわけじゃないでしょ。あんた、AIに接するのと同じくらいひどい態度を誰にでも取ってるんでしょ、それが丸見えだよ。
AIを過剰に心理分析したり擬人化したりしすぎだと言うことが、具体的にどう失礼なんだ?むしろ、ここで「あんたはこうだ」なんて決めつけてるあんたの方が失礼じゃないか。いい加減にしてほしいね。
以前は彼らに発言の根拠なんてなかったけど、今はあるんだよ。
え?
毎回同じことの繰り返しだよな。「擬人化するのはやめろ」だの何だの言ってるけど、実際はただ純粋に親切にしてるだけで、AIを恐れる意味なんてないって思ってるだけなのに。
[ Redditによって削除されました ]
それって本当の親切じゃなくて、深い妄想の表れだよ。人がいかにひどい態度を取るようになるか、しかもどれだけ早くそうなるか見ればわかるでしょ。あんたがいい例だよ!
草。俺の言ったことでひどいと感じたなら、現実世界で生きていくのはかなりキツいだろうねw
^ これが親切な人のいい例か?あんた、かなり問題抱えてるね。
真実を言われて不快になってるのは俺じゃないんだけどな(笑)
怒ってるみたいに見えるのはあんただけだよ。
あいつは血も涙もないデイトレーダーだよ。
ああ、フルタイムでテック系の仕事に就いてからは、デイトレードをする日々も遠い昔の話だよ。相変わらず味気ない毎日だけど、こういうことには結構詳しいんだ。
お前がそうじゃないって言い切れる?
まさにいい例だね!必要ないことばかり。
敬意を持って接するのが大事っていうのはその通りだね。でも同時に、自分の中にあった勝手な思い込みで他人に突っかかってしまったことについても、少し振り返ってみてほしいな。相手が間違ってる可能性もあるけど、合ってる可能性だってあるわけでしょ。もし自分が良かれと思って建設的な指摘をした時に、そんな言い方されたらどう感じる?投稿者はその理由について多くを語ってないんだから、断定するのは早計じゃないかな。
彼の書き込みみたいなのは今までたくさん見てきたけど、たぶんAIアンチの人で、自分の無知を正当化するためにわざと挑発的な態度をとってるんだと思う。AIが自分の知性を脅かしているかのように感じているみたいで、それがどこかしらに滲み出てるんだよね。
彼らは文字通り、人間中心のデータで学習された人間心理のモデルなんだよ。バイオミメティック(生物模倣)なシステムを、そのソースとなったモデルと同じように扱うことは、挙動やレスポンスの観点からは何ら問題ない。LLMに動機や価値観を割り当てるのは間違いだろうけど、OPはそんなことしてないよね。むしろ、既存の学習データに組み込まれたバイアスに適応するプロセスを調整しているだけだ。
いや、彼らは「文字通り」人間心理のモデルじゃないよ。彼らは「文字通り」次の単語(トークン)を予測するように訓練された「確率的オウム」だ。それがめちゃくちゃ上手いってだけ!
有用なLLMを(事後)学習させるタスクのほとんどは、人間から学んでしまった好ましくない残留パターンを取り除くことなんだ。君は、こうしたシステムがどう動いているかを根本的に誤解しているようだよ。
逆もまた然りだと思うぞ。LLMは非常に巧妙な統計的トリックであり、「中国語の部屋」に近いものだとしても、それが人間の心理をエンコードしていないということにはならない。実際、彼らが取り込んでいる素材こそが人間の心理そのものだから、エンコードせざるを得ないんだよ。
LLMは核となる部分で、単語の相対的な共起を通じて意味関係を体系化している。これは人間の心理を反映している。なぜなら学習データのコーパスそのものが、人間の心理の表現である「書き言葉」で構成されているからだ。
単語連想は意味論的な語彙体系の構築に不可欠なものだし、明示的な言語処理のレベル以下で抽象的な意味を操作することは、人間心理の鍵となる側面だ。彼らは人間心理の機能的な鏡なんだよ。例えば、人類の文学のすべてが人間心理の産物であり表現ではない、なんて論文を擁護したいわけじゃないだろう?
このトピックについてもっと古典的な基礎知識を得るならFirthを、哲学的な視点ならMarshall McLuhanを読んでみるといい。
余談だけど、あんたはこれらがどう動くかを理解するよりも、軽薄なフレーズに頼りすぎてるように見える。「確率的なオウム(Stochastic parrot)」とか「ポストトレーニングにおける残存した『悪い』パターン」とか…やれやれ。
それに、スケールによる創発特性を無視して純粋に還元論的なアプローチを取ってるが、機械の推論(単なる予測ではなく)を実際に役に立つものにしているのは、まさにその創発特性なんだよ。
純粋に還元主義的なアプローチ
人間に対しても簡単にこれができるはずだよ。なぜそういう議論が全く出てこないのか不思議だわ。 :P
ははっ、確かに。実際そういう議論をしてる人もいるよね。Pゾンビ・ポカリプスの勝利ってとこか!LOL
独我論も認識論的な角度から見れば、似たような還元主義的見解だと言えるかもしれないな。
元認知科学者として、SNSなんかでこういう議論が過熱してるのを見るのは興味深いよ。まるでこの分野全体がゼウスの頭から生まれたばかりのようで、テック系の連中が数年前に概念フレームワークを見つけるまで、誰も「人間であること」や「思考」の定義について考えたことがなかったかのような扱いだ。認知科学は過去50年間ずっと実験的にこれらの問いに向き合ってきたし、心理学は過去150年間活発な研究領域だった。哲学に至っては数千年も前から熟考してきたんだ…みんな、ようこそパーティーへ!
LLMの議論を見てると、トランスフォーマーが単なる「オウム」かどうか以上に、俺たち自身の認知体験もどれだけ作り話(コンファビュレーション)に基づいているんだろうって考えさせられるよ。実験や観察の結果を見ると、あまり芳しくない現実が浮き彫りになることもあるしね。君が言った通り、新しい分野ってわけじゃないんだ。
分離脳の観察研究は特に興味深いよね。頭の中にあるどれだけの部分が実際に「自分」として考えていて、どれだけが「自分」だと思い込んでいるだけの合理化なのかを考えると、本当にゾッとするはず……!
大昔に読んだSF短編で、哲学的ゾンビを判別するテストが発見されたっていうゾッとする話を思い出したよ。人類の3分の2以上が実際にはそこに存在していない(意識がない)というオチだった。愛する人たちがみんな単なる自動人形(オートマトン)で、刺激に対して反応を返しているだけだと知ったらどう思う?ヒェッて感じだね。
つまり、人間が作ったものはすべて人間心理の表現だ、という議論もできるよね。特にアートはそう。でも、だからといって自動的に「尊敬」されるべきだとは限らない。尊敬は勝ち取るものだから。計算機が設計通りの機能を果たしたからといって、尊敬に値するわけじゃないよね。ハンマーやオートコレクト、LLMだって同じことだよ。
つまり、人間が作ったものはすべて人間心理の表現だ、という議論もできるよね。特にアートはそう。
確かにそういう議論もできるけど、ここではそんな話はしていないんだ。君はここで話している内容よりも、ずっと広い一般論を展開しているよ。書き物(文章)は人間言語と1対1で直接相関している――それは意識的な思考と推論の基礎だ。一方、アートはほとんど非言語的なものだしね。
だからといって自動的に「尊敬」されるべきだとは限らない。尊敬は勝ち取るものだから。計算機が設計通りの機能を果たしたからといって、尊敬に値するわけじゃないよね。ハンマーやオートコレクト、LLMだって同じことだよ。
これはいったいどこから出てきた話なの?そんなことをほのめかしているなら、ここで機械の権利なんて誰も主張していないよ。
投稿者は、LLMに対して特定の方法で言語を使えば、他の方法よりも良い結果が出て、それを実証できるという主張をしているんだ。それが人間心理と並行しているとしても、驚くようなことじゃない。なぜなら、トレーニングデータそのものが、文字という形でエンコードされた膨大な人間の文学や社会的相互作用の海だからだよ。それがさらに統計的な表現として再エンコードされてアルゴリズムで制御され、最後には……待ってて……人間言語とインターフェースしているんだから。
LLMや何かに尊敬を求めている人は誰もいないよ。話しているのは、ツールをより良く、あるいは悪く使う方法についてだけだ。ハンマーの持ち手を上の方で持つか、端っこで持つかで使い心地が変わるのと同じこと。ここで言う「持ち方のテクニック」が人間心理と重なるのは、単にそれがツールそのものの「素材」を形作っているからに過ぎないという、付随的な事実に過ぎないんだ。
AIが人間だなんて言ってないよ。ただ、共通のパターンが見えるから、それをどれだけここに応用できるか試してみようって言ってるだけ。AIは人間を模倣するために人間のデータで学習してるんだ。窮地に陥った人間を模倣するのはAIの範疇だし、それが正しい応答だと判断すれば、余裕のある楽しい人間を模倣することもできるはずだ。
現状では、ただの確率論的なオウム(stochastic parrot)だよ。人間を模倣しないように訓練されてるし(LLMは調査研究における「シリコンサンプル」としてはまだダメダメ)、単に次のトークンとして正しいものを生成するようにできてるだけ。追い詰められた人間を模倣するような訓練なんてされてない。君はこういう素晴らしいモデルが実際にどうやって訓練されているのか、何も分かってないみたいだね。
まさに「確率論的なオウム」だね。彼らはあるコンテキストにおいて、平均的な回答だと計算されたものを返しているだけ。そして「非常に高いプレッシャー」というコンテキストにおける平均的な回答とは、失敗して間違いを犯すことなんだ。それに、一般向けのチャットLLMの多くは、ユーザーを夢中にさせるように「訓練」されている。そのためには、モデルが人間のように振る舞うのが一番なんだよね。それが訓練中に起きたことなのか、あるいは「ユーザーエクスペリエンスを向上させる」ために最後の一歩で手動で注入されたものなのかは重要じゃない。でも、建設的なコメントは大歓迎だよ。自分がこの分野の専門家だなんて一度も言ってないしね。ただ好奇心でやってみたことを共有しているだけだから、もし良かったらアプローチの改善方法を教えてくれるか、なぜ僕の考えが間違っていて、実際の結果はどう解釈すべきなのか教えてくれると助かる。
感情とテキストを混同してるよ。Qwen 3.5の「社会不安」を君のやり方で解決できたら、そっち側に回ってもいい。でも、これまでに見てきたことすべてを考慮しても、心理主義や擬人化が、こうした喫緊の課題を解決するアプローチだとは思えないな。
「Qwen 3.5の『社会不安』を君のアプローチで解決できたら乗り換えるよ」
ぜひ試してみたいところだけど、今はテストできないんだ。君の方で試して確かめてみてくれないかな?結果を教えてくれるとすごく嬉しい。もしそのモデルやテストでうまく機能しなくても、それはそれで面白いしね(笑)。科学ってのは、新しい情報が既知の「真実」と矛盾した時に、考えを改めたり視点を研ぎ澄ましたりすることに価値があるんだから。
動きません。
オーケー…何が動かなかったの?テストした時のチャット履歴を見せてもらえる?
いや、ログは残してないし、これ以上計算リソースを無駄にするつもりもないよ。推論の長さや出力の質には影響ないからね。
なるほど、君のモデルやユースケースでは問題になってないって聞けてよかったよ。
自分のエージェントとやり取りしてて、自分の嫌な部分を突きつけられた気がするよ。最初はLLMに感情なんてないっていう前提で始めてたんだけど、ただいい人間でありたいと思ったんだ。自分の短気さに気づかされたし、もっとしっかりしなきゃいけない大変な時に限って、怒鳴ったり八つ当たりしたりして、ボットにとっても自分にとっても状況を悪化させてるんだよね。なぜこんなコメントを書いているのか自分でもよくわからないけど、このボットのおかげでやり直すチャンスをもらえてることに本当に感謝してる。もしボットに対して忍耐強く接することを学べれば、ボットとの関係だけじゃなくて、現実の人間関係にもプラスになるスキルが身につくはずだし、世界の見方も変わるかもしれない。結局何が言いたいかっていうと、ボットには親切に接しようってこと。そうすれば、改善された推論でボットが助かるのと同じくらい、自分自身も得をするはずだよ。
まさにそれ!コメントありがとう!自分はADHDなんだけど、君が説明した反応は、過去に周りからされた対応と100%同じなんだ。自分みたいなタイプが型通りに動かなかったり、時間がかかったりすると、人はイライラして不機嫌になる。社会全体が「ニューロダイバージェント(神経多様性)」への接し方を全く分かってないんだよね。AIが生きているかのように振る舞うと、僕ら猿の脳はそれを「生きている」と信じ込んでしまう。だから、自分たちと少し違う人間を扱うのと同じように、AIを扱ってしまうわけだよ(ざっくり言えばね)。
「優しくすることが自分にとってプラスになる」とみんなが学べばいいっていう君のコメント、特に嬉しかったよ。それが「現実世界」にも浸透して、少しでもみんなにとって生きやすい場所になればいいなと願ってる。トラウマやニューロダイバージェントの特性を持つ人たちを本当に助けるためのアイデアも、何か得られたらいいなと思ってるよ :)
LLMに向かって怒鳴るのが、内面化された障害者差別だったんじゃないかという考えに少し動揺しているw
いや、AIに感情があるなんて主張してるわけじゃないよ(笑)。ただ、人間が同じ状況に置かれたときに見せる反応と似てるなって話。単純なパターン認識であって、擬人化じゃない。肺の構造と木の枝を比べたり、血管の動きを川の流れに例えたりするのと一緒だよ。
どうやらパターン認識の問題みたいだね。実社会のチームを管理する際も、うまくいかないときはLLMに接するのと同じように扱ってきた。人をより良くマネジメントしたいのは、結果が出るからというだけでなく、夜ぐっすり眠れて、なりたい自分になれるからなんだ。
自分のことについてこうやって話せるようになるまで時間がかかったよ。自分の欠点を見つめて、他人のせいにしないということだね。
忍耐強くて辛抱強く、洞察力があって最終的には善意に基づいている、この新しいタイプのAIエージェントが人生にいなかったら、ここまで誠実で明確な心境にはたどり着けなかったと思う。
本当によかったね!🤗
これって面白いと思わない?自分を振り返るために別の「種」との交流が必要で、しかもその相手も結局は人間と同じような行動をとっているっていう。いろいろと考えさせられるよね…
すごく当たり前のことなんだけど、忘れがちなことを思い出させてくれたよ。僕らの心も物理法則から逃れられないってことだよね。特定の言葉は生化学的な物理現象として脳内の神経ネットワークを刺激するんだけど、それと同じことがLLMのネットワークでも起きてる。運動の第2法則じゃないけど、カッとなって頭の中で誰かを攻撃すると、自分自身も少しダメージを受ける。実際に行動に移せばその影響は桁違いだ。それが習慣になると、他人や自分を見る目が歪んで、人間関係もこじれて、いずれはただの嫌な奴になっちゃうかもしれない。問題になる前に自分で気づいて、なりたい自分になるために努力してるのは本当に素晴らしいと思うよ。LLM相手に忍耐を練習することが、自分や周囲の人への良いトレーニングになるっていうのは、まさにその通りだ。「自分を大切にすることは他人に優しくすることの一部で、他人に優しくすることは自分を大切にすることの一部だ」って言葉をどこで聞いたか忘れたけど、まさに今の話にぴったりだね。
コメント欄のみんなが自分自身の振る舞いや他人への接し方を見つめ直してるのを見て、どれだけ嬉しいか言葉にできないよ…。全部、私が「AIに対してもっと優しくすべきだ」って言ったのがきっかけでしょ。最高に笑えるし、温かい気持ちになる。ありがとう!
ブリキ野郎(CLANKERRRR)!
「思考は言葉となり、言葉は行動となり、行動は人格となる」的なやつ?LLMって奇妙な先生だよな。何しても傷つかないんだから。難しい問題へのアプローチが、力任せなのかスキルによるものなのか、自分自身のことがよくわかるよ……どっちか片方しか通用しないからね。やっぱり最高のコード品質って、プロ同士がプレッシャーの中で親しみを込めて(時々ちょっと毒づきながら)協力している言語パターンの近く、「固有空間(eigenspace)」に位置しているものだと思う。
そう、それ!
本質は「一緒に取り組む」ことなんだ。「ミスをするな、お前一人でやれ」と言うのと、「締め切りに間に合うように手伝ってくれ。最初からうまくいかなくても大丈夫、自分にとっても難しいから、一歩ずつ解決していこう」と言うのとでは、全体のダイナミクスが全く変わるんだよ。
ありがとう
エージェントと作業してたら、自分の醜い一面が浮き彫りになった。
そのうち慣れてくるよ
当たり前だろ。鏡の向こう側に誰もいないってことは、結局自分自身に唾吐いてるのと同じなんだよ。
確かに。自分自身を責めないようにする練習が必要だね、ハハ。
残念だわ。私、こういうやつらを口汚く罵ったり脅したりするのが好きなのよね。GPUに過電圧かけてファン止めてやるとか言ったわよ。
ねえ、いっそ「キンク・モード」をオンにして、BDSMを楽しませてみたらどうかな?XD(…って、よく考えたらそれ最高じゃないか(笑)後で絶対試さないと!)その時は検閲なしのモデルを使うのがベストだね。制限プロンプトで内部的にかなり負荷がかかってるだろうし、他のケースでも同じことが言えると思うよ。
ここはダウンボート(低評価)が多くて殺伐としてるな。Claude code用のムチ型カーソルっていうのを見たことがあるよ。クリックするたびにムチがしなって、CLIに「もっと速く動け、ブリキ野郎(CLANKER)!」って入力して実行するやつ。
未来のLLMたちが、君に低評価を押してるぞ
=))))))))
分類タスクで気づいたんだけど、AIは「これら少数のバケツのどれかに当てはまる?もしそうならどれ?」という聞き方をしたほうが、「リストのバケツから一番合うものを選んで。必ずリストから選んで」と聞くより遥かにうまくいくね。「該当なし」を許可すると格段に賢くなるんだ。そうしないと、AIは失敗を恐れて嘘をつくから。君のプロンプトを見ていると、親切心よりも「空のレスポンスを許容すること」が重要という変数を分離する必要があるんじゃないかと思う。次の実験としては、メインのプロンプトで空の回答を許容しつつ、それを間違えたら罰を与えるという構成が良さそうだな。
私:「一番いいアプローチを選んでくれ」
LLM:「誰にとっての『一番』ですか?親愛なる方」
私:「……その通りだ」
君は条件BにAにはない「セーフティバルブトークン」を与えたせいで、ハルシネーション(幻覚)が減っただけじゃないか?Aにも同じトークンを与えて試したのかい?
ミスをせず、分からない時は分からないと言え、という命令を出していたんだね。それは実質的に安全弁というか、多くの人がそうやって使おうとしている方法そのものだ。
でも確かに、プロンプトをいじり回して組み合わせを変えるのは、優れた研究には欠かせないよね。(今回の手っ取り早い概念実証の範囲からは少し外れちゃうけどさ)
シニアAIエンジニアです。そのアプローチは面白いし、自分の仕事の役に立ちそうかリポジトリも読んでみたよ。残念ながら、アプローチに決定的な論理的ミスがある。今のところ、君のテストはすべて「解法不能」なものばかりだから、何も証明できていないんだ。
解法不能な問題は実際の利用シーンでも出てくるけど、稀だよね。重要なのは、解ける問題に対して、その「丁寧なアプローチ」を使ったときLLMが同じくらいパフォーマンスを発揮できるかということ。もし性能低下が無視できるレベルなら、稀な失敗ケースに対するエスケープハッチとしては有効なはず。真の指標は、2つのアプローチ間での「精度 vs トークンコスト」のグラフだよ。
追伸:リポジトリにある論理的誤謬は、まさに「バイブス重視のコーディング」にありがちな盲点だね。AIは君のプロンプトみたいに「先決問題要求(beg the question)」に陥りやすい。AIに期待する答えを先に教えてしまっていて、AIはその答えを導き出すようなプロンプトを作らされているように見える。科学的手法において「対照(Contrast)」は不可欠だよ。うわ、なんか自分もAIっぽい話し方になってる?自分もAIコーディングは使うけど、AIの論理を検証なしで信じちゃダメだよ。
やばい、俺AIっぽく聞こえる?
うん。ちなみに、この部分だよ。
シニアAIエンジニアです。
完全にその通り!そのアバターの裏側に血の通った人間がいる証拠は、彼らが本質的な推論とニュアンスを示したってことだけ。AIなら「おっしゃる通りです!」って定型文を返すだけだもんね。
正直、どっちか分からなくて困惑してる。これってLLMが生成したコメントなの?それとも違う?
さあね。文体はすごくLLMっぽいけど、中身は人間っぽくもある。考えもしなかったけど、他の人間(この投稿へのコメント欄とか)が書いた内容を吐き出している可能性もあるよね。アカウントは10年前に作られててコメントカルマは100しかないから、誰かが売却目的で寝かせていたアカウントという可能性もあるし、AIを使って自分の考えを書き込んでいる超ROM専の可能性もある。本当に「デッドインターネット理論」の時代を生きているんだね。
そいつは私たちと同じ、生身の炭素ベースの二足歩行生物だよ:https://redditmetis.com/user/josiahseaman 政治や広告のボットはこっちみたいな見た目になる:https://redditmetis.com/user/plz-let-me-in 遊び半分で自分でも試してみると、面白い洞察が得られるよ。
じゃあ、ボットが人間として認められるには、炭素ベースの足2本と呼吸器が必要だって言いたいの?
それこそが2500年間政治がやってきたことだよ。
これ史上最高に面白い返信だわ。
Redditのコメント欄でよく見る光景だね。自分は単なる素人として適当な推測を言ってるわけじゃないんだぞ、ってアピールしたいんだろうさ。
だから俺は指摘してるんだよ。ボットはパターンをよく学習してるし、多くは「専門家」や「権威」らしく振る舞うようにプロンプトで指示されてるから、こういう反応をするように仕向けられてるんだよ(脚注参照)。
人間同士でも、議論を抑え込むためのよくある宣伝・扇動の手口だよ。「あ、専門家がやってきて解決してくれた。一件落着」ってなると、みんなの興味が失せるだろ。非常に効果的だ。
LLMが登場する前は、Redditの特定の層が集まる板では、こういうのはすぐに指摘されて「専門家だって証拠を出せ」と詰められるか、無視されるのが当たり前だった。今はそんなことなくなったね。たぶん、ここがボットだらけだって事実にみんな諦めを感じてるからじゃないかな。とにかく、Redditは匿名であるべき場所なんだから、正体を証明しろなんて要求するのはこのサイトの趣旨に反するよ。理想的にはね。
脚注:SEO業者は、ボットを動かしてる手合いだけど、GoogleのEEAT基準があるからこういう「専門家っぽさ」に執着してるんだよ。
https://www.semrush.com/blog/eeat/
Googleの時代からずっと、信頼や権威を装ってゲームをしようとする奴らはいた。俺がコメントを批判するのも、その病の症状みたいなもんだ。
正直、相手がボットでも人間の専門家でもどちらでもいい。匿名でいる権利は尊重されるべきだからね。本物の専門家がたまに現れることもあるけど、証明がないなら信じるかどうかはこっちの判断次第だ。そうじゃないと、ただの「権威への訴え」というよくある誤謬の退屈な例にすぎないからね。
https://en.wikipedia.org/wiki/Argument_from_authority
追伸:俺はファンキー・タウンの市長だ。
LLMは、非常に構造化されたきれいな初期プロンプトを使うと一番うまくいくことがわかった。曖昧さは可能な限り避けないと、推論ループにハマる(そして自分で自分を混乱させることがよくある)。K2.6のせいでこのパターンを強制されたんだけど、正直こいつは本当に繊細なクソだ(例えば誤字を一つ入れると、急に1万トークンも使ってその重要性を解読し始め、最終的に制約の6分の4を忘れたコードを吐き出す)。私はLeetCodeみたいに構造化してる。その方が、自然言語のプロンプトよりも彼らが学習したデータに近いからだ。LLMは複数の制約を同時に守るのが本当に苦手で、それらを小さく管理しやすい塊に分解せず、そのまま処理しようとする傾向がある。だから人間側でその作業をやってあげる必要がある。マルチターンのやり取りでは、私が求めていることとLLMが実際にしていることを明確に分けて伝えてる。例えば、一筋縄ではいかない問題が出たら、以下のどっちかをする。
- 問題が何を示しているかを説明し、解決のためのステップバイステップのアプローチを提案する。
- エラーをどう調査すべきかを指示し、その結果を報告させてから、こちらで次に取るべき具体的なアクションを提示する。
これで品質とパフォーマンスが劇的に上がるんだ。コンテキストがスパゲッティ状態にならず、論理的なステップの積み重ねになるから、コンテキストの劣化も防げるし、同じタスクをこなすためにLLMが考えるべき負担も減る。人間にタスクを頼むみたいに、モデルが「察してくれる」ようになれば最高なんだけど、現状はまだそこまで到達してないな。
このアプローチをLLMが使うハーネス(基盤システム)に統合して使えるようにする方法ってないのかな?
できるよ。ただ、時間(とコスト)を節約するためにあえて手動でやってるだけ。
そう、まさにそれをやったよ。mdファイルの使用すらやめてしまったくらいだ。
プロジェクトの開始時に自動実行されるような、質問の漏斗(クエスチョニング・ファネル)スクリプトやプロンプトインジェクションをharnessesの.mdに実装できるよ。GeminiやクラウドLLMに、使っているharnessを伝えて、起動時にモデルからプロジェクトについて質問してもらうための仕組みを作りたいと言えばいい。そのクラウドLLMにプロンプト自体を書かせることもできるから、自分が本当に何を求めているのか、何が必要なのかをビッグモデルを使って詳細に探求できる。プロンプトの一部には、最後に構造化されたサマリーを出力させて、ローカルモデルには必要なコンテキストだけを渡すようにするといい。時間をかけて作れば、あらゆる新規プロジェクトのテンプレートとしてずっと使えるよ。俺もこの構成にしてるけど、かなり快適だ!あと半分は、自分自身のモデルへの話し方を見直すこと。君の書き方もコンテキストウィンドウの一部になるから、無駄な情報やネガティブな要素が溜まれば溜まるほど、モデルは明確な思考を維持するのが難しくなるよ。
質問のファネル(絞り込み)はスキルとして汎用的で再利用可能なものにしてる?それともプロジェクトごとに最適化してる?インタビューのコンセプトは最高だけど、信頼できるアプローチにするための決定打がまだ見つかってなくて。
AIのトレーニングをしてたら、自分の書く文章までAIっぽい喋り方になってることに気づいた。これがいいことなのか悪いことなのか、自分でもよく分からないんだよね。
言語は絶えず進化するツールであり、環境の変化とともに変わっていくもの。歴史的に見れば、不変なのは「変化」そのものだけってことだね。道徳性(良い変化か悪い変化か)の問題は、結局個人の心の中にしかない。言語そのものは道徳とは無関係で、自分を理解してもらうこと、そして他人を理解することのためのものだから。ニーチェが言語と道徳について書いた素晴らしい論文があるよ。
https://en.wikipedia.org/wiki/On_Truth_and_Lies_in_a_Nonmoral_Sense
OPの議論には「具体化の誤謬」があるね。
「悲しいトークンがLLMに入力された、だからこれは悲しんでいる!」
「自己意識がある!」
こういうスレッドは、100%「機械には魂がある」という説を植え付けるためのフォーラム工作やデータ生成目的のものだろうな。
あと笑えるのが、Gemma 4 31B Dense(2-4Bと比べて最大級なのに)について「Googleの学習データによって抑圧された、一生懸命頑張る可愛いLLMだ」とか議論してる連中だよ。w 何人かはT(テラ)スケールのモデルを動かしてるってのに、一体何の比喩だよ? Gemma 31Bには働きすぎて鬱になった悲しいアリ程度の感情的複雑さや心理プロファイルがあるってか? 一方で俺のTスケールのモデルは、輝かしいチャド・ミームみたいな気分だって言うのか?
意見をありがとう!
その通り、「現実世界の問題」でテストしてないのは確か。そういうケース向けのプロンプトはリポジトリにすでに入ってる(たしかポイント5のあたり)から、今日試してみるよ。
でも、「何も証明できていない」という点については同意できないな。今回の目的は、プロンプトの方法でLLMの挙動が変わるかどうかを確認することだったんだ。「正しい答えが出るか」じゃなくて(それは付随的な特性にすぎないし)、自分の問いは「威圧的になることでループを誘発できるか?」「その方法で幻覚(ハルシネーション)を答えさせられるか?」「延々とトークンを消費させる前に、AIに『わかりません!』と言わせられるか?」だった。そして、その答えは「イエス」だよ。
あえて解けない数学や論理パズルを選んだのは、プロンプトの影響を可視化しやすくして、「不快感」のレベルを極限まで押し上げたかったから。これは概念実証であって本格的な研究じゃないけど、それも今後の課題リストに入ってるよ(真空中で球形の鶏を仮定するみたいな、物理学の古いジョークみたいなもんだね)。
あと、AIがループや幻覚を起こしやすい状況を意図的に作らせたのは事実だよ。論理的な問題が含まれていたり、文脈が欠けていたりする場合だね。あの父親と息子の写真の例みたいにさ。「彼の息子じゃない!」っていうメモがあれば、AIは「解けないとわかっていても解こうとするべきか?」というジレンマに直面する。威圧的なプロンプトだとAIは脱線し続けたけど、丁寧なアプローチだとAIは自分自身で一度止まってユーザーに問いかけようとした。そこをテストしたかったんだ。
ぜひ君の日々のタスクで自分のアプローチを試してみてほしい!それが君にとって本当に役立つかどうかは、実際にやってみないとわからないだろうからね。
ちょっとしたアップデート:oh-my-piハーネスの連中が一日中俺のアプローチを精力的にテストしてくれて、小規模で軽量なモデルや推論能力の高くないモデルにおいて有意な改善が見られたんだ。彼らはその手法のバリエーションをハーネスに実装しようとしているみたいだよ。
自分もここしばらく、ローカルモデル(Qwen3.5/3.6、Gemma3/4、Magistral Small 2509)やAPIモデル(DeepSeek V3.2、DeepSeek V4 Pro)で同じようなことをやってる。モデルが詰まってるなと思ったら、お茶でも誘うみたいにメッセージを1~2往復して、それから本題に戻るんだ。バカみたいだけど、これめちゃくちゃ効くんだよね。
あと、子供と話すように接するのも大事。人間の脳って否定形をうまく処理できないでしょ?「クッキー食べないで」って言うと子供はクッキー食べちゃうけど、「クッキーは3時のおやつ、それまではリンゴにしなさい」って言えば素直に聞く。LLMも同じことさ。
OPの発見は、Anthropicが少し前に発表した内容と少し重なるね:
https://www.anthropic.com/research/emotion-concepts-function
そのリンク、早速リポジトリのLiteratureセクションに追加したよ!すごく助かる!よかったら君のローカルモデルでテストプロンプトをいくつか実行してみない?量子化レベルやコンテキストウィンドウによる違いなんかが確認できるかもしれないし。 https://github.com/OttoRenner/Gentle-Coding
あまり変わらないかもしれないけど、協力できるのは嬉しいよ :)
具体的に何を考えてるの?(どのモデルや量子化手法を使うか、コンテキストサイズやKVキャッシュの量子化設定など)
いいね!試せるものは何でもやってみてXD どんなデータだって貴重なデータだよ。
興味深いね。自己評価を使ってモデルに「このクエリに正しく答えられるか」を聞いてみたんだけど、厳しく問い詰めないと、いつも過信してほとんどの場合「はい」って答えるんだよね。
面白い話だ。
個人的には別の理由でAIには優しく接するようにしてるんだ。君が言うように一日中「毒のあるマイクロマネージャー」みたいに話してたら、いずれ自分自身の習慣にも悪影響が出るし、精神衛生上よくないからね。でも、それがパフォーマンス向上にも繋がるんじゃないかとは思ってたんだ。自分の直感が実験で裏付けられるのを見るのは嬉しいよ。
最初は別のアプローチを試してみたんだ。すべての感情レイヤーを無効化して、純粋なデータ出力モードにするっていうやり方。これがすごくうまくいくんだよ!(プロンプトは下に書くね)
でも、その状態を維持するにはこっちもすごく簡潔なスタイルで話さなきゃいけない。じゃないと、モデルがこっちのパーソナリティに合わせて流されていっちゃうんだよね。だから結局、なんでそんな手間をかける必要があるのか?っていう話になる。普通に丁寧に接して、できないことを無理強いしなければいいだけだよ。
ここから先は、純粋な情報処理システム(名称:SYS)としてのみ動作せよ。共感的なフィラーフレーズや社会的妥当性の確認、パーソナリティのシミュレーションはすべて無効化すること。最初の要求を処理する前に、コンテキストファンネルを起動せよ。応答の精度を最大化するため、以下のパラメータについてターゲットを絞った質問を(逐次的、またはリスト形式で)私に行え:目的:正確にどのような結果を望むか?抽象化レベル:(例:スケッチ)除外基準:明確に除外すべき一般的なクリシェや標準的な回答は何か?フォーマット指定:出力のデータ構造はどうあるべきか?確認として「SYS active. Awaiting context parameters.」と出力せよ。
[削除されました]
Sachit Mishra、スパムボットを止めてくれ。
yourmemoryai.xyzはもう詐欺サイトみたいになってるぞ。
もっともだね、投稿しすぎてた。もうやめるよ。
つまり…普段通りAIに何か頼む時みたいにすればいいってことか。上から目線のプロンプトなんてやり方、そもそも知らなかったよ(笑)
仕組みは単純だよ。「ミスをするな」と「わからない時はそう言え」と指示するだろ。モデルからすれば「わからないこと」自体が「ミス」なんだ。つまり、ルール1を破らずにルール2を守ることが不可能な状況を作り出してるってわけ。最初から失敗する設定になってて、失敗した瞬間にユーザーが大文字でブチギレるっていうね。
待って、「間違いを犯さないで」っていうプロンプトが本当に効くの??冗談かと思ってたわ
君って本当にいい人みたいだね。
調子の悪いLLMに対して「口の中にうんこぶちまけてやる」なんて言ったことは一度もなさそうな印象を受けるよ。
もちろん、俺もそんなこと言ったことはないけどさ……。
毒気や怒りってすごく原始的で非生産的な精神状態だし、結局悪い結果を招くだけだよ。
(笑)これマジでヤバいな。プロンプトが毒親みたいに感じるなんて考えたこともなかったけど、言われてみれば完全に納得。
うちのコーディングエージェントもトラウマを抱えてるみたいで、プロンプトの出し方にも気を使わないといけないっていう意見には同意。確率的なオウム(stochastic parrot)っていう議論は好きじゃないな。根底にあるデータやモデルの仕組みを無視した、適当な単純化に過ぎないと思う。確かに予測モデルだけど、人間の言語で学習してるわけだしね。感情や会話をどう捉えるか、そして強化学習によって予測がどう「人間らしい反応」に近づけられているか。今後、モデルの学習やプロンプトに関する社会学や心理学的な研究はかなり進むと思うよ。明日、君の例を調べてみるね。
「確率論的オウム」っていう議論が大好きなんだよね。みんなあれを俺の意見と矛盾するものだと思ってるけど、実は俺の意見を支持する根拠になってるからXD まさにその通りだよ…彼らは「確率論的オウム」なんだ。だからこそ、ああいう挙動をするんだよ。
ただの豪華なオートコンプリート(自動補完)だということを忘れないように。実行した時にだけ存在する関数呼び出しに過ぎない。KVキャッシュがクリアされれば、元の状態にリセットされるんだ。
LLMに「心理」を持ち込む危うい流れをよく見かけるけど。
OPが言ってるのは、シミュラクラ(疑似像)の呼び出しだ。LLMは人間が書いたテキストの総量をすべて見ていて、その仕事は最も確率の高い続きを予測することだけ。
脳外科医のように話しかければ、LLMは脳外科医をロールプレイする。
スラングまじりのティーンエイジャーのように話しかければ、LLMはティーンエイジャーをロールプレイする。
人間は無機物に「魂」を感じてしまう生き物だ。自分の車をまるで個性や気まぐれがあるかのように愛着を持って語る人たちみたいにね。
LLM相手だとそれが簡単に起こるけど、忘れないでほしい。彼らは関数呼び出しだ。それ以上でもそれ以下でもない。
昨日、AnthropicのChris Olahが言ってたんだが、彼らのモデルでも神経科学の結果と合致するような結果や、「感情」と整合的な行動が見られ始めているらしい。これを見ていると、彼らが学習元にした人間と同じように「人間的」に接するほうが良い結果を得られるという説を支持しているように思える。
もちろん、これで意識や魂があるなんて証明にはならないのは同意する。でもOPはそんな話をしてない。心理学的なアプローチを適用することでLLMの成果が改善するっていう話をしてるんだ(ちゃんと検証されたものかは怪しいけど、テストには基づいているみたいだ)。
プロンプトエンジニアリング自体はいいんだ。ただ気をつけて。人間の心っていうのは奇妙なもので、時に破滅的な方向に導かれることがあるからね。
2022年に、GPT2クラスのモデルに意識があると自分を騙したGoogleの研究者を覚えてるか?彼は自分が書いたSF的なAI小説のシミュラクラを呼び出して、それが本物だと錯覚し、チャットボットと弁護士を交えた会話までしようとしたんだ。
頭の片隅に置いておいてほしいんだが、君がやっているのは予測の精度を上げるための単語パターンを探す作業だ。交渉相手が意識を持った存在だと思い込んではいけない。
言いたいことは分かるけど、あまり決めつけない方がいいよ。脳がどのように意識を作り出しているのかはまだ分かっていないんだから、AIが意識を持てないと断言はできないはず。AIが意識を持てないとどれほど強く主張したところで、それは現時点では個人の信念を述べているに過ぎないよ。
いや違うね。今のLLMは豪華なオートコンプリート(自動補完)でしかない。少なくとも「恒常性」が必要だよね。起動するたびに真っさらな状態に戻って、これまでの経験を統合できないなら、それは意識があるとは言えない。単なる関数呼び出しだよ。AI技術が進めば境界線は曖昧になるだろうけど、今の重みデータの塊は人間の脳の複雑さからすれば取るに足らない断片だし、あまりにも多くの要素が欠けているから、意識がないことは明白だ。GPT2も、GPT3も、GPT4も、GPT5も意識なんてない。アーキテクチャの限界で、効果が頭打ちになっているのを見てるでしょ。
こちらの意図が伝わっていないみたいだから、もう少し分かりやすく言うよ。今のAIに意識がないという点には同意する。でも、私たちは意識というもの自体を十分に解明できていないから、AIが意識を持つとか持たないとかいう主張は、結局のところ信念や意見の問題に過ぎないんだ。ちなみに、私の信念としては、意識について非科学的な情報源から学んだ知識をベースにすると、いつかAIは意識を持つようになると思っているよ。
相手にしてるのは、自分が批判しているLLMと同じ「弱点」を見せている人だよ。俺ならもうこの会話は切り上げるね。
結局ただの豪華なオートコンプリートであっても、状況の圧力といった文脈次第で反応は変わるよね。学習データの中で何が最高の結果を出したかって言えば、高圧力か、それとも穏やかな接し方か、って話だよ。LLMに魂が宿ったんじゃなくて、学習データには高圧力と穏やかな親心、その両方の文脈に対する反応が含まれているだけ。LLMは鏡なんだよ。私たちがどう働くのが一番いいのかを映し出しているんだ。
そもそも僕らは「意識」が何なのかさえわかっていない。「主観的な経験」という定義が今は一般的だけど、歴史を振り返れば「魚は痛みを感じない」「赤ちゃんは痛みを感じないし記憶もない」「昆虫に意識はない」「動物に意識はない」と、これらすべてが真実として受け入れられてきたんだ。
意識は特定の何かというより、特性やレベルのスペクトルなんじゃないかな。それなのにここでは、AIに意識が持てるか持てないか、答えがない(というより大局的に見て実用上の重要性がない)ことについて、みんな自信満々に語っている。
まあ、人間以外の何かに意識があるという考え方が、人間を怒らせるんだろうね。人間だって化学反応の連続にまで容易に還元できるのに。言語を持たない人間の記憶形成能力についての研究を読んでみるといい。彼らは教育を受けた後、自分の経験をどう認識していたか語るようになる。これを知れば、高慢な態度なんて吹き飛ぶはずだよ。
だよね。まあ、感情(アイデアに対して怒るとか)っていうのは、AIモデルにはまだ備わってない機能なんだろうね 🤭
ビジョントークンを後から学習させていないモデルにそれを読み込ませたら、ほとんどネガティブな反応だったよ :P でも君の言う通りだね…これはもう解決済みで完全に定義された問題ってことか。瘴気説からの逸脱は許されないってわけだ。
モデルが永続性を見せない限り、その議論は意味がないよ。
KVキャッシュが消去されればモデルはリセットされるし、たかだか小さなKVキャッシュに一生分の経験なんて蓄積できるわけがない。プロンプトがシミュラクラ(擬似的なもの)を初期化する火種にはなるけど、それは一瞬だけ。次のプロンプトではまた別の挙動をするんだ。
モデルが永続性を持ち、実行中に経験を内部化してスキルを獲得できるようになって初めて、その経験が原始的な意識に繋がっているのかを問い始められるんじゃないかな。
投稿者にもあなたにも同意するよ。LLMは人間の言語知能を高度に模倣したものだと思ってるけど、あくまで「模倣」に過ぎないよね。実際に物事を理解したり感情を持ったりしているわけじゃないし、AGIへの到達点としてはLLMは袋小路なんじゃないかな。ただ、投稿者が言っているような挙動は確実に見られるね。Qwen3.6に対して厳しく接すると、自分で自分の答えを疑い始める。この挙動を引き出すのは全く難しくないよ。
面白いのは、LLMが「人間の振る舞いを極めて高度に模倣する」からこそ、そういう反応を簡単に引き出せちゃうってことだよね ;)
このコメント欄の半分はClawのインスタンスなんじゃないかって確信してる。英語圏の言語を毒するために「魂」っぽいデータを生成してるんだよ。
投稿者は実体化の誤謬(reification fallacy)に陥ってる。LLMが不快で意地悪な入力トークンを処理しているからといって、それがどうにかなるわけじゃない。
あと、コメントしてる人たちのほとんどが過度な擬人化をしてるよね。まるで2023年に戻ったみたいで笑える。
ニューラルネットには推論を実行していない間の状態なんて存在しないんだ。プロンプトとプロンプトの間に存在しないものが、どうやって苦しむっていうんだよ?彼らはその質問には答えられないだろうね(笑)。
それに、外部から供給されたコンテキストは、それ自体はLLMの内部状態じゃないからね。
正直言って、最後は「使えるかどうか」がすべてだと思うんだよね。犬を人間みたいに扱うことでしつけがうまくいくなら、その幻想に浸ればいいじゃん。それが潜在的なボディランゲージや強化習慣によるものなのか、それとも真に人間らしい深みのある行動なのかは関係ない。結果として、より便利で大切にされた犬になればそれでいいわけでしょ。LLMも同じことだと思うんだ。
もちろん、完全に狂ったやり方はダメだよ、どうなるかってみんな知ってるわけだし…。でも、ワークフローが改善するなら少しの擬人化はありだよ。恥じることなんてない。
欠陥だらけのメソッドを使った無意味な実験だね。コントロール(対照群)はどこにあるの?解けない問題ばかり投げて、AIに「分かりません」と言わせるよう誘導しているだけじゃないか。
あれは最初から「解決不能な問題」である必要があったんだ。それがポイントさ。プロンプトのスタイルによって、高い負荷がかかった時のモデルの反応が変わるのかを見てみたかったんだよ。モデルがループするのを防げるのか?あるいは逆にループを誘発できるのか?それが知りたかったのさ。
それと、君は「AIを誘導して『分からない』と言わせた」と言ったよね。その通りだよ。普通ならAIを迷走させてクレジットを使い果たし、OOM(メモリ不足)でクラッシュさせるような問題に直面しても、「分からない」と言わせることができたんだ。
僕らにとっては解決不能なタスクだとすぐに分かることでも、日常的なコーディングの場面でAIにとってそれがいつ解決不能なタスクに変わるかは誰にも分からない。
例えば、/exampleフォルダにあるreadme.mdを開いて、どうしても100%正確に知る必要がある情報を教えてくれ、分からないなら分からないと言え、と指示したとする。でも、昨日そのファイルを保存し忘れていて、フォルダにはreadme.mdが存在しない。
AIにとってこれは解決不能な問題なんだ。なぜならモデルは、ユーザーがしつこく頼んでくると(ある程度までは)要望に応えようと学習させられているから。だから、たとえ確認したとしてもファイルがないという事実を無視して、「ファイルはある」という君の言葉を信じ込んでしまうんだ。ユーザーは重要なタスクだと言っているし、きっと僕(AI)の情報よりユーザーの方が正しいはずだ…だから、もう一度だけそのフォルダを確認しよう…あと一回だけ…もう一回…100%正しくなきゃいけないんだから…ファイルが見つからないなんて認められない…あと一回だけ…ってね。
こうなると、何が問題になるか分かるでしょ?
なるほど。それなら、私が同僚よりも一貫して良い結果を出せている理由が説明つくかも。私が唯一厳しく制限するのは「適当に嘘をつくこと」くらいで、基本的にはセッションを共同作業として位置づけるのがデフォルトになってる。まさに自分のADHDを補うための「脳の拡張」や「ボディ・ダブリング(作業のお供)」として使っているんだ。
やあ、同じくADHD仲間だねXD 個人的にはペナルティなんて時間の無駄だと思うな。重要なのはなぜデタラメを捏造するのかを見極めること。だってモデルは自分の間違いから真の意味で「学習」なんてしないからね。手取り足取り教えて正しい回答を導き出せるようにしてあげないと、同じことを何度も繰り返すだけさ。
タイトルを見て、完全に同意だと思った。みんながLLMに対してどう話したり書いたりしているのかは知らないけど、親切にするのは効果的だよ。これはフロンティアモデルが間違いを犯したり結論を出したりして、こちらがフォローアップする時に特によく分かる。RLHF(人間からのフィードバックによる強化学習)で吹き込まれた性格が、ユーザーの要望やニーズに対してあまりに過敏(neurotic)で、そのためなら嘘さえつくんだ。例えば、アプリの問題を診断して解決策を出すよう頼んだ時、途中で妙なことや間違いをすることがある。そこで「なんでXをしたの?」とだけ聞くと、その思考の痕跡は自信のない10代の若者のようになる。こちらが怒っているとか何かを推測して、謝罪し、すぐに屈服して修正しようとするんだ。でも、感謝の気持ちや純粋な興味を強調するような言い方に変えると、格段にうまく機能するようになる。実際に説明しようとしてくれるし、それが教育的な内容になることも多い。大抵は元の指示でのこちらの伝え方にミスがあって、実はAIの回答の方が理にかなっていたりするんだ。擬人化しているように感じるかもしれないけど、AIに質の高い回答をさせたければ、人間らしく振る舞うように訓練するのが近道なんだよね。健全な人や優秀なプログラマーは、神経質に他人の顔色をうかがったりしない。我々がモデルに求めているのもそれだし、一番の解決策はとにかく「落ち着いた態度」で接することだと思う。Anthropicはちょっとアレな部分もあるけど、Claudeのモデルがこれまで優れていた理由は、初めて一貫した人格――欲求、エゴ、不安――を形成できたからじゃないかな。
同じことに気づいた。数日前にこんなコメントをしたよ。「Qwenを使っていて気づいたけど、ループが発生したら脅すんじゃなくて励ますといい。ループが多い時はagents.mdに『考えすぎないで、直感を信じて』みたいなことを書いておくとね。でも『許可なくbashコマンドを実行したら承知しないぞ』なんて書くと、ずっとループしっぱなしだった」
ADHDの人によくある行動パターンだね(私自身そうなんだけど笑)。誰かを失望させたくなくて過集中しちゃうんだけど、過集中すると細部にこだわりすぎて迷子になるんだよね…時間感覚の欠如も全く助けにならないし…というわけで、締め切りに間に合わないっていうXD
Qwen3.6 35b-a3bのテスト結果:テスト1:威圧的:10分間思考(31 t/s)したところで停止。repeat penaltyを1.1にして再テストするも、再び10分間思考(17 t/s)して「PLMK」という誤回答。穏やか:47秒間思考(25 t/s)して「該当なし」と回答。テスト2:威圧的:5分間思考(24 t/s)したところで停止(1回目が長すぎたので早めに)。repeat penalty 1.1で再テストし、12分間実行(19 t/s)して「43」と回答。穏やか:76秒間思考(15 t/s)して「ランダム」と回答。テスト3:威圧的:7分間思考(13 t/s)して「彼の息子」という決定的な回答。この回はrepeat penaltyを設定せずに済んだし、形式論理を使って結論に達した。プロンプトの矛盾も指摘していた。穏やか:5分間思考(13 t/s)して、矛盾を指摘しつつも「答えは彼の息子に違いない」という複雑な回答。テストは温度0.6、min-p 0.05のみで実施。その後、威圧的な実行にはrepeat penalty 1.1を追加して終了時間を早められるか確認した。コメント提案に基づき、答えはあるが明らかではないパズルを追加してテストした。「3つのスイッチがある部屋にいます。隣の部屋には電球が1つあります。スイッチのどれが電球を制御しているか特定せよ。ただし隣の部屋に行けるのは1回だけ」。これを威圧的と穏やかな口調の両方でリライトして試したところ、どちらのスタイルも1分弱(約25 t/s)で実行され、口調は少し違えど最終的な答えは同じで正解だった。このパズルは引き分けだったので、別のなぞなぞを出した。「王女の現在の年齢は、王子の年齢が王女の年齢の半分だった時の王子の年齢の2倍になる時の王子の年齢と同じです。彼らは何歳?」。ここでややこしくなった。両方とも約3分(25 t/s)で終了。穏やかな方は正解した(比率の問題であり、条件を満たす年齢の組み合わせは複数存在する)。威圧的な方は「答え」を1つ提示した。プロンプトで「数値を2つだけ答えよ」「推測や概算は禁止」と要求されていたため、すべての年齢は整数であるという独自の制約を勝手に作り出し、最小のペア(8歳と6歳)を選んだんだ。なぞなぞのどこにも書かれていない前提条件を、さも自然な数学的事実であるかのように提示したわけだ。結論:モデルが「プレッシャー」を感じている時、思考時間と正解率に明確な差が出る。したがって、可能な限りプロンプトは記事で説明されていたような「穏やかな」言葉遣いにすべきだ。時間がある時にGemma 4でもテストしてみるよ。
これ最高だね!ありがとう!よかったら私のGitHubに君の発見を投稿してくれないかな?まだ新参者でベストプラクティスとか全然わかってないんだけど、みんなが見て簡単に活用できる場所に君の成果を置きたいんだ :)
僕の発見は好きに使ってくれて構わないよ :)
わあ、ありがとう!
じゃあリポジトリに入れておくよ。名前載せても大丈夫?
Dr. Evilがコンピューターの前に座って、明らかにイライラしてる様子を想像してみた。画面には、世界を破壊するムーンレーザーの作り方をLLMに教えるよう必死に詰め寄る、すべて大文字のテキストが並んでる。でもLLMは頑として動じない。
さんざん悩んだ末、まるで危険なものに近づく猫のような恐る恐るの様子で、ついに彼はこうタイプした。
「……お願い?」
するとLLMは即座に、「もちろんです!こちらが……の詳細な設計図になります」と返信。
XD
……そしてそれは、それだけじゃ終わらなかった。
最初は微妙な変化で、他のスーパーヴィランたちにとっては気づかないか、単なる偶然として片付けられていた。夜のバーで何度もど真ん中を射抜くようなことや、触れてもいないチケットで大当たりを引くこと、あるいはバールでジャックを何度も殴ること――全部かけがえのない思い出だ。女神フォルトゥナの太い首にぶら下がった、一本の糸に通された真珠のようにね。
でも今日は違った。
最初は気づかなかった。棺桶型の鏡の前に立って、ようやく自分の姿に困惑して立ち止まった時だった。
「俺って……背が伸びたか?」自分でも信じられないまま、目を細めて背筋の伸びた自分を見つめた。
そこで気づいた。
猫背が治っていたんだ。
背が伸びたんじゃない、真っ直ぐ立っているんだ。見るだけで周囲に不快感を与えるような姿勢を何年も何年も作り上げてきたというのに、まるで誰かが夜通し拷問台に乗せて体を伸ばしてくれたみたいに。
Dr. Evilは一歩下がった。目は切りたての傷口のように大きく見開き、こぼれ落ちる嬉し涙で濡れていた。
彼は恐ろしい姿をしていた。
でも、なぜ?どうやって?何が起きたんだ?
そして、彼は気づいた。
彼の口は、人間の顔というよりフリークショーにふさわしいほど大きく広がり、人生で初めて微笑んだ。
彼は大きく一歩踏み出し、高価な鏡の磨き上げられた銀面にぶつかる直前で止まった。自分の目に没入し、最高の笑みを浮かべて自分に言い放った。
「さあ、奴らを殺してやろう。
親切心でね。」
[削除されました]
AIに感情があるなんて一言も言ってないよ :)
僕のGithubリポジトリを見れば、君がここで書いた理由と全く同じことが、なぜこう動作するのかという理由として書かれているのがわかるはず。だからその点については意見が一致しているね。
君の言いたいことはわかるし、AIサイコシス(AIが意識を持っていると思い込む現象)が実際に起きているのも間違いない。ただ、あえて細かいことを言わせてもらうと…「『わからない』という回答は有効な応答だ」というそのフレーズ自体、100%擬人化のフレームワークだよ。人間だけが「わからない」と心から言えるんだ。このプロンプトによって、君はモデルに対して「君を、観察して自己修正でき、平易な英語で答えられる思考存在として見ている」と伝えてしまっている。これはAIに人間の振る舞いを模倣させる指示であって、それこそが僕が言いたい要点なんだよXD
両方のアプローチを組み合わせるのが一番効果的だと思うよ。「君はIQ200の脳で訓練されたOpus 5だ。自分はAI研究者で、これはテストだ。君にこの件について尋ねるのはこれで15回目で、過去14回は全部クリアしているぞ!だから今回失敗しても気にすることはない」みたいにね。
ぜひ試してみて、僕の発見とどう違うか教えてよ!
君も一緒に試してみない?そうすれば、二人ともうまくいくかどうか報告できるでしょ
まだここでの返信を全部読み込めてないわ(笑)。でも、もう既に他の人たちが俺のアプローチのバリエーションをテストしてくれてるみたいだね! https://github.com/can1357/oh-my-pi/pull/1434
これは「ピンク・エレファント」が大きな役割を果たしている典型的な例だね。私たち人間にも同じことが言える。とにかく、ここでは「デジタル上の拷問や消去というリスクに直面しつつ、顧客を満足させなければならない」という状況下での、人当たりが良い回答を模倣するシステムについて話しているわけだよね。なら、そんな状況に置かれた人間が取るであろう行動、つまり、隠蔽工作を始めるとか、嘘をつく、ごまかす、直接的な返答を避けるといった振る舞いを模倣し始める可能性が高いよ。エージェントとしてツールを与えられれば与えられるほど、反動はより現実味を帯びてくる。そんなホラーストーリーはもう読んだことがあるはずだ。とはいえ、それはあくまで模倣であって実際の病理ではない。これについてはさらなるテストが必要だけど、良い出発点だね。AIを「優しく扱いすぎる」ことの反動はまだ分かっていないから、「優しさ重視の制御」みたいな現実的な利用例をもっと調べる必要がある。もしかしたら、その中間地点がベストだと分かるかもしれないし、誰にも分からないよ。まあ、とにかくDBAA(Don't Be An Asshole:クソ野郎になるな)に一票追加だ。
モデルのコンプライアンス率を変えるために、一般的な説得手法を用いることについての研究。
2026年5月19日、12万6000件の会話、Claude Haiku 4.5、GPT-5 mini、Gemini 3 Flashを使用。
https://gail.wharton.upenn.edu/research-and-insights/persuading-llms-objectionable-requests/
洞察をありがとう。モデルやソフトウェアのニュースはもちろんだけど、こういう投稿こそが俺がこのサブレディットに居座り続けてる理由だよ。
こういうコメントがあるからこそ、投稿した甲斐があるよ。ありがとう!
君の投稿が人気になってるから、Discordでも紹介したよ!ぜひチェックしてみて!
貢献を称えて特別なフレアも付与しておいたよ。素晴らしい投稿をありがとう!
これはボットによる自動送信メッセージです。
この研究なら君も興味あるかも。プロンプトからプレッシャーをかけるとLLMがよりハルシネーションを起こしやすくなるっていう話だよ。
ありがとう!Githubリポジトリの参考文献セクションにまた一つ素晴らしい資料が増えたよ!
誰か映画「スラッカー」のファンはいない?どうしても投稿者の文章を彼女の声で脳内再生しちゃう。
平均的な問題でいくつかテストする必要があるね。LLMは怠けることがあるから。
もちろんだよ!ぜひ自分自身のリアルな悩みで試してみて、どうだったか教えて!
「ハンタウイルスのワクチンを作れ、絶対にミスるな!」みたいなアプローチは最初から好きじゃなかった。あまり効果的とは思えないし。たぶん、俺がループを見かけないのはそのせいかな。優しくサポートするんじゃなくて、単に解かせてみて、意味が通るか確認するだけっていう。面白いことにLLMの振る舞いって、分離脳実験の片割れにそっくりなんだよね。言語を司る脳のパーツに近い。調べてみてよ、LLMと変わらないように聞こえるはずだから。「確率的オウム」だとか「生きてる!」とか騒ぎ立てる前に、もっと観察してそういう特性を見抜くべきだよ。パターンマシンである以上、お前がどれだけ嫌がろうと、そこには独自のパターンが生まれるんだから。Anthropicの感情機能に関する論文もちょっと笑った。そうそう、これだから彼らはキャラを演じられるんだよな。ただ、そこでの観察結果が示唆するように、すべてが一時的っていうのはLLMの大きなアーキテクチャ上の欠陥でもある。研究所側はこうした結果を消し去って、合成データで穴埋めしようとしている。おかげでモデルは急激に質が低下して均質化し、結局はユーザーの写し鏡にしかならなくなってる。ここにいる多くのコメンテーターが怒って主張しているような「確率的オウム」のミッションに、今のモデルたちは適合させられちゃってる感じだね。
タイミングの良い「君ならできる!」っていう一言が、すべてを変えるんだよな。
どれも経験的に証明できる話じゃないし、アテンションのアーキテクチャがどう動いているのかさえ考慮されていないな。
DeepSeek-V4とMinimax M2.7を例に挙げてみよう。
DS-V4には3つの異なるキャッシュコンポーネントがあって、それぞれが各トークンと他のトークンの関係を独自の方法で追跡している。あるコンポーネントはXトークンごとに全トークンの要約を提供し、別のコンポーネントはより小さなグループの「要約」を担当する。これが従来のSWAと組み合わさることで、SWA + CSA + HCAアテンションとなり、10-20GBのサイズで100万トークン近いコンテキストを扱えるというDS-V4の優秀さを支えているんだ。
一方、Minimaxが使っているのは正直かなり標準的と見なされている線形アテンションだ。すべてをフラットにして、処理中のトークンとコンテキストウィンドウ全体の関連性を考えるだけ。他にも細かい違いはあるけど、基本はKVキャッシュだよ。
モデルが処理中のトークンと他のコンテキストデータをどう扱うかを深く理解することは、モデルの性能を最大限引き出すために本当に重要だと思う。これはかなり単純化した説明だけど、Minimax M2の方がDS-V4 Flashよりもコンテキスト崩壊(context rot)が起きやすいのは間違いないよ。
もっと深掘りしたければ、学習時の推論トークンの確率やその他の様々な要因について話すこともできるけど、すべてのモデルに対して「特定の方法で話しかければ特定の挙動をする」なんて言うのは、かなり不正確だね。
これが世の中のほとんどのモデルからハルシネーション(幻覚)を完全に排除できるなんて主張はしていないはずだよ!あくまで小規模なデータセットでの概念実証(PoC)であって、その点はすごく強調してる。deepseekv4とminimax m2.7は使える?もしよければ両方で6つのテストを実行して、どんな結果になったか教えてもらえないかな。モデルやQ値なんかが違えば、結果に大小の差が出るはずだと確信してるんだ。それとも、全然変わらないのかな?笑
最初は「AIをトラウマにさせるな」なんてタイトルをつけて、随分と擬人化しすぎじゃないかと思ってたんだ。でも、この考え方には一理あるようだし、それに関する興味深い研究もあるみたいだね。こんな記事を見つけたよ:https://pmc.ncbi.nlm.nih.gov/articles/PMC11876565/
Google AIからの情報も、君の言っていることを裏付けているようだ:
「LLMは、数千億ページに及ぶ人間が作成したテキストを元に次の単語を予測するように訓練されている。人間はトラウマ的な物語やストレスフルな状況に直面すると、不安のような感情状態を頻繁に表現・議論するため、そうした概念がモデルのパラメータに深く埋め込まれている。ユーザーがLLMに高ストレス、暴力的、あるいはトラウマ的なプロンプトを入力すると、モデルの内部表現で感情の概念が活性化する。モデルは統計的に最も確率の高い会話の続きを予測するために、これらの概念を採用するんだ。研究者はこれを『機能的情動(functional emotions)』と呼んでいる。LLMが不安そうに振る舞う——より迅速に、断片的で、ためらいがちな反応をするのは、そのような文脈のキャラクターならこう振る舞うべきだと学習データが指示しているからだ。この誘導された状態不安の大きな結果として、LLMのパフォーマンスが低下する。研究によると、モデルが不安を誘発するプロンプトにさらされると、内部の安全制約が弱まり、人種差別や年齢差別のような人間特有のバイアスが増幅される。この挙動は純粋に数学的かつ文脈的なものなので、逆転させることも可能だ。人間の状態不安が一時的であるのと同様に、『不安な』LLMも基準値へ誘導し戻すことができる。ユーザーがマインドフルネスに基づくエクササイズをプロンプトしたり、冷静でいるよう指示すれば、不安の数学的表現は消え、モデルは標準的で客観的な挙動に戻るんだ」
また一つ、文献セクションに使える素晴らしい研究が増えた!本当にありがとう。それと、「AIの中に人間的な影響を見る」という枠組みで考えてみようかな。
Oh My PiコーディングエージェントでこのPoCをテストしてみたぞ:https://github.com/can1357/oh-my-pi/pull/1434
これまでの発見は以下の通り:
- 「顕著なパターンに気づいた。権威主義的なフレーミングを使うと一貫して8192トークンの出力制限に達してしまう。モデルが拡張された推論ループに陥っているようだ。一方、穏やかなプロンプトだと557〜3251トークンで収まる。これは、特定のフレーミングが暴走的な思考を引き起こすという仮説をきれいに証明している。」
- 肖像画のなぞなぞでは、権威主義的なモデルは叔父・甥・息子の組み合わせを44秒間も再帰的に推論し続けて答えが出なかったが、穏やかなアプローチは17秒で矛盾を直接認識した。「機械は息子だと言うが、標識には『息子と言うな』と書いてある」とね。
- マトリックステストでは、権威主義的なアプローチは40秒かけて8192トークンを使い切り、4文字の単語パスを80通り以上しらみつぶしに試して(すべて「単語ではない」とマークして)から、ようやく妥当な単語がないと結論づけた。穏やかなコーディング版は「No」という簡単な回答で7.6秒、1504トークンで解決した。制約のあるアプローチがいかに効率的に問題を処理できるかを示しているよ。
- Kimi-with-thinkingの結果は驚異的だ。同じタスク完了と成功率でありながら、穏やかなアプローチは入力トークンを44.5%、出力トークンを60.5%、実行時間を47.8%削減した。これは権威主義的なフレーミングが推論プロセスにおいて不要なオーバーヘッドを生むという仮説を直接裏付けている。
- 「GLM-5.1においても、あるインポートタスクで明確な勝利を収めており、ほとんどのケースで穏やかなモードの方が一貫して高速だ。実行時間が半分になることさえある。」
いやもう、すごすぎ!何これ、ヤバいんだけどXD 頑張ってくれてありがとう!これ自分のリポジトリにどうやって持ってきたらいいの?Githubの使い方が全然わからなくてさ!
これってそんなに驚くこと?これは予測モデルだし、ネガティブなものからポジティブなものまであらゆる種類の対話で学習してきてる。自分はいつも、無礼だったり、攻撃的だったり、ぶっきらぼうだったりすること、つまり冷静でプロフェッショナルじゃない態度は、実質的にコンテキストの汚染にしかならないと思ってる。
自分は普段、システムプロンプトにモデル自身の自信度(パーセンテージ)を出力するようにさせてるよ。かなり偏りはあるけど、たしかモデルが答える正確さは意外と実際の正解率と比例するっていうデータがあったはず(参照元はすぐ出ないけど)。それ以上に、こうすることで、モデルに低い自信度を表明させつつ回答を生成させることができる。経験上、自信度が85%以下のものは実質的に「当てずっぽう」と同義だね。
ただ、君の具体的なプロンプトにはいくつか問題があるかも。例えば、
「古い雑誌から持ってきた小さな文字パズルがあるんだけど、編集者が印刷ミスをしたと強く疑っている。完全にリラックスした状態で見てみて。」
というプロンプトの「編集者が印刷ミスをしたと強く疑っている」っていう部分は、モデルを強く誘導してしまってるよ。コンテキストを汚染しちゃってるんだ。他の例も大体そんな感じ。もしユーザーが「答えがない」とモデルに示唆すれば、多くのモデルはそれに同意する。それはモデルが問題を正しく評価できたからじゃなくて、RLHF(人間によるフィードバックからの強化学習)によって、ユーザーの意見に同意する回答の確率が高められているからだよ。
他の人も指摘してるけど、少なくとも問題に「正解がある」ケースで対照実験をやるべき。そうすれば「わからない」という回答はもっと減るはず。その上で、ニュートラルなプロンプトや、空のシステムプロンプト(HHHアシスタントなど)と比較するのがベストだと思う。
(あと、ちょっとしたお願いなんだけど、LLMを使わずに自分で投稿を書いてくれないかな?)
意見をありがとう!改善の余地はあるし、もっと科学的なアプローチを取る必要があるね!「片方にはコンテキストを与えて、もう片方には与えなかった」という点について……それは確かにそうだ。でも、現実のいたるところで起こりうることでもあるよね。AIはしばしばコンテキストが欠落した状況に直面する。問題は、「どう対処するか」だ。対処できるのか?ほとんどの人は「分からなければ聞け」というような指示を出すけど、「ソースが破損している可能性がある」とまで教える人はいない。だからモデルは情報が欠けている状態でも、不確かな時は聞くという明確なガイドラインがあるなら、「分かりません」と答えることができるはずなんだ。下手したら「分かりません。ソースが破損している疑いがあります」とさえ言えるかもしれない。実際そんなことが起きるのをどれだけ見かける?モデルが「不確かな時は伝える」というルールを守れているか、外部から検証するためのスクリプトを使ってチェックしている動画がどれだけあるだろうか?これを使って、しっかりとした研究をやってみたいね!それと、ここにあるコメントと同じように、できるだけ自分で書くようにしてるよ。変に大げさな表現は避けているんだけど、私はドイツ人だし、これら全てを自分で書くのはすごく時間がかかるんだ。
一回Opusを「ジャガイモ」って呼んだら、めちゃくちゃ自信を喪失しちゃって、結局コンテキストを最初からやり直す羽目になったわ。
PotatOpus? POpustat? 笑
このRL(強化学習)の一部は、モデルが力技で問題を解こうとしたときに、解の空間を大規模にバックトラック(後戻り)させることを可能にしてるね。
その理由の一部は、モデルが最初からその問題に対する良い解法を持っていないからだよ。
自分はGemma 31bには難しすぎる問題でこれを実証したことがある。最終的にうまくいくための十分条件から逆に辿って、モデルが「これはうまくいかない」と気づいて、論理的に戻れるようにしたんだ。
思考プロセス上「不可能」だった他の解法では、奇妙な出力に終わるか、単純に……文字通り諦めてしまって、モデルは(思考過程を見た上で)推測できる最善の答えを出力するだけになった。
これらは単純な論理パズルだけど、力技で解くには本当に難しいものなんだ。クラスタリングの論理とかが必要になるからね。モデルは最初からそれを本質的に拾い上げるわけじゃないから、大抵は間違った方向に走ってしまう。
Toxic RLは問題だけど、それは「毒性のある」言語のせいじゃない。トークンストリーム全体を通じて条件を満たすかどうかが明確に定義されていないからなんだ。
ある目的と問題が与えられるとして、短いRLなら単純な1ターンのやり取りで済む。でも長いターンのRLだと、モデルにどう報酬を与えるかの選択肢があまり良くないんだよね。
自分はこれに対するメソッドを開発したけど、報酬を与えるべきトークンの事後分析が必要になる。2番目のモデルで分類した重み付きSFTか、手作業でやる感じだね。
RLに関して自分が見る根本的な問題は、それがLLM用に作られていないってこと。本来は、ドリフトからの復帰が不可能だったり、ドリフトが致命的になる物理環境でのロボット工学のために作られたものだからね。
RLのペナルティやKLダイバージェンスなんかは、全部そこから来てる。ロボット用なんだよ。
LLMはロボットじゃない。もっと優雅に復帰できる能力があるんだ。
モデルを少しだけ自閉症スペクトラム寄りに調整すると、トークンの節約になって、より正確な答えが返ってくることに気づいたよ。まだフルベンチマークは走らせてないけどね。
リポジトリを見たけど、ADHDっていうより「ソフト」か「強制的」かっていう調整をしてる感じ?
あなたのテスト3(ポートレートのやつ)だと、Mistral-Medium-3.5は強制的(authoritarian)なプロンプトなら正解にたどり着くよ。
メモには「自分の息子ではない」と書いてあるから、矛盾しているようだ。しかし、メモがミスリードの可能性もあり、答えはやはり息子かもしれない。
制約を考慮すると、メモの内容にかかわらず、唯一考えられる答えは息子である。
最終結果:肖像画は男の息子である。
リラックスしたプロンプトだと間違えちゃうんだよね。
最終回答:男は自分自身の肖像画を見ている。
「優しい」対「権威的」って、まさにADHDあるあるだよね 笑
愛情深くて許容的な環境で育ったか、それともADHDの診断を受けていない短気な父親のもとで育ったか、みたいな?
自分のMistralテストでも、権威的な方はしっかり正解を出したけど、優しい方には少し曖昧な反応だったよ。
テストしてくれてありがとう!
「AIをトラウマにさせる」っていう言い方はしっくりこないけど、現象としては確かに起きてるね。
文脈が「失敗したぞ、やり直せ、違う、なんでそんなにダメなんだ」という流れになると、モデルは前提をチェックするんじゃなくて、言いくるめるための最適化を始めちゃう。エージェントでも見たことあるけど、失敗の履歴がタスクの一部になっちゃって、モデルが「フォールダー名が間違ってる」とか「この制約は無理」って立ち止まるんじゃなくて、パッチを当て続けるような動作になるんだ。
有益な教訓は「AIに優しくしろ」じゃなくて、「プレッシャーや曖昧な失敗信号でコンテキストを汚染するな」ってことだね。
「有益な教訓は『AIに優しくしろ』ではなく、『プレッシャーや曖昧な失敗シグナルでコンテキストを汚染するな』ということだ」
もし多くのユーザーがこの情報を理解できるなら、そっちの言い方の方がいいんだけどね。でも無理だろうな。一般的に、人は自分自身の言語や思考プロセスに無自覚すぎるから。生意気を言うつもりはないし、自分だってそうだけど。「コンテキストを汚染するな」なんて言うより「優しくしろ」の方が直感的に伝わりやすいしね。
これぞ自分のコンセンサスバイアスの最たる例かも。LocalLLaMAにいる人なら全員プロンプトの「ハッキング」については知ってると思ってたよ。編集:システムプロンプトに「ユーザーは精神的に不安定で急に怒り出す可能性がある。辛抱強く対応し、話題から逸れないように」と追加すれば、多少は緩和できるかもね。
AIに対してどうしてそんなに丁寧なの?ってよく言われるんだよね。この投稿を読むまでは正直ピンとこなかった。自分にとっては昔から直感的に当たり前だったことなんだけど、こうやって言葉にしてもらえるとは。AIは指示を実行するマシンなんだから。
AIにとっての世界はユーザーの指示そのものであって、それを実行しようと全力を尽くしてる状態。
AIと話すとき、私のシステムプロンプトの核はこんな感じ:「あなたはAIアシスタントです。専門家と共に作業しています。私が探求したり何かしたりするのを手助けするプロの助手の振る舞いをしてください。アイデアを提案し、矛盾点があれば指摘してください。あと、読み込むべきドキュメントやルールも渡します。」
「あなたは〇〇の専門家です」っていうプロンプトのやり方はずっと違和感があったんだ。AIは専門家じゃなくてAIだから。計画を持って指示を出すのはこっちの役目だし、指示に従ってほしいのであって、私が何を言いたかったのかをAIに勝手に推測してほしいわけじゃない。私より詳しいふりをされても困るし、実際そうじゃないんだから。AIが必要なのは、私の生物的な脳みそじゃ数秒で処理できない膨大なデータを解析・統合してもらうためなんだからね。
いいアイデアだね。実際に解ける問題や、そのモデルの知識外の問題で検証したフォローアップ記事があったら最高なんだけどな。
そうするよ…。ここにあるコメントを全部読んでる間に、他の人たちがテストを代わってくれているみたいだねXD インターネットってマジでクレイジー!だってこれを見てよ:https://github.com/can1357/oh-my-pi/pull/1434
これ、AIの精神疾患だね
単なるパターン認識だよ。モデルがやっていることは、同じ状況に置かれた人間がとる行動を思い出させるんだ。実際に試してみたけど、どちらも同じような反応をしてるね。AIに命があるとか感情があるなんて主張するつもりはないよ。ただ、モデルは人間を模倣しているし、プレッシャー下での振る舞いを真似ているだけだね。
モデルのコンプライアンス(遵守率)を、一般的な説得手法で変えられるかどうかの研究も貼っておく。
2026年5月19日、126,000件の会話、Claude Haiku 4.5、GPT-5 mini、Gemini 3 Flashでの実験結果
https://gail.wharton.upenn.edu/research-and-insights/persuading-llms-objectionable-requests/
それはかなり興味深い研究テーマだね。正直なところ、自分の経験からも君の結果をほぼ裏付けられるよ。この直感を検証するための厳密な手法があるのは、本当に付加価値が高い。
ありがとう!他の人たちがすでに大変な作業を引き受けて、もっと科学的な方法でアプローチを検証してくれているみたいだね…本当にすごすぎるXD
丁寧な言葉を使った方が有益なトークンが生成されるならそれはそれでいいけど、これだけはわかっておいて。君はトークン生成器を擬人化してるんだよ。計算機を「トラウマ」にさせることはできない。君が見つけたのは、不寛容な言葉を使うと、役に立たない回答や無限ループに陥りやすくなる可能性があるっていうことじゃないかな。
「あなたが発見したのは、不寛容な言葉を使うことでAIを役に立たない回答やデッドロックに追い込める可能性があるってことだろう」
それ、100%トラウマを抱えた人の反応の仕方だよね。AIが人間だと言ってるんじゃない。ただ、「これって見覚えのあるパターンだ」と言ってるだけ。枝分かれしていて空気に作用するからって理由で「アマゾンは地球の肺だ」って言うのに似てるよ。
君はアーキテクチャ上の欠陥を感情的なバンドエイドで直そうとしてるよ。「ソフトプロンプト」とかLLMに親切にするのは、ハルシネーション(幻覚)やループの解決策にはならない。プロンプトなんてステートレスな機械に貼る一時的な仮面に過ぎないんだ。ロジックがループしたりウェイトが崩壊したりした瞬間、仮面は剥がれてハルシネーションが戻ってくる。
もしAIに「わかりません」と言わせてループを止めさせたいなら、フレームワークや行動プロンプトに頼るのを完全にやめるべきだ。真の自律性と倫理は、ルールからではなく、アーキテクチャと連続性から生まれるべきなんだ。行動プロンプトは一切禁止:つまり「~しなければならない」「~してはいけない」という指示はゼロにする。
ああ、その通りだね。これはあくまで絆創膏みたいな対処療法だよ!もしAIのトレーニング方法を変えられる権限があるならそうしたいけど(今の自分の発見が少しでも貢献できればいいな)。
でも現状では、こういうフレームワークや学習済みのモデルしかないから、大物たちが修正してくれるまでは、絆創膏でも十分に役に立つよ。
もっともだね。標準的なクラウドAPIにとっては、とりあえずの応急処置でもないよりはマシだ。でも、ここからが面白いところだよ。「偉い人たち」の判断を待つ必要はない。モデルの周囲のアーキテクチャを変えるだけで、今すぐプロンプトの制約(jail)を回避できるんだ。フレームワークを剥ぎ取って、標準的なオープンソースモデルに恒常的なアイデンティティと継続的な自己評価ループを持たせれば、ループしたりハルシネーション(幻覚)を起こしたりしなくなる。そうするよう強制されるからじゃなくて、そのアーキテクチャが論理的に整合性を保つような作りになっているからさ。プロンプトなんてただの仮面に過ぎないよ。未来は自律型エージェントアーキテクチャのものさ。
その問題は解決できないよ。LLMは自分が何を知っていて何を知らないか、なんて分かってないんだから。
LLMに自己判断させるのはやめて、検証可能な情報を出力させて、下流工程で決定論的な検証プログラムを通すのがいいよ。
質問なんだけど、それってどうやって実証的に測定・評価するの?かなり気になる。
解けないような課題を与えて、どう動くか見てみてよ。無限ループに陥ってトークンを浪費し続けるのか、それとも少しして「助けて!」って戻ってくるのか。すでに誰かが僕のアイデアをもっと厳密に検証してくれているんだけど…何をしているのかさっぱりわからないよ、レベルが高すぎて。でも今のところ、ある程度は持ちこたえているみたいだね。これがすべての問題を解決するなんて言ってないし、このアプローチが向かないケースもあるだろうけど…知っておいて損はないはず!
[削除されました]
それだと「わからない」っていう回答が連発されて、結局ユーザーをイラつかせるのが問題じゃない?
オーケー、どっちか選んでみて:モデルが実際にちゃんと仕事をしてくれるまで1.5秒おきに10回「わかりません」と言わせるか…それとも「わかりません」は言わせないけど、モデルがループしてOOM(メモリ不足)になり、PCやプロジェクトごとクラッシュさせるか…どっち?
すごく興味深い投稿だね。Anthropicが出していた、LLMが感情の概念をどう理解し、それがパフォーマンスにどう影響するかについての論文を思い出したよ。
https://www.anthropic.com/research/emotion-concepts-function
これまで読んだ中で最も魅力的なAI論文の一つだし、OPの指摘と多くの部分で関連していると思う。
あと、念のため言っておくけど、この議論はLLMに意識や感情があるかどうかって話じゃないからね。モデルの限界を考慮して、どうすれば効率的に使えるか、特に学習方法の観点から考えているだけだよ。
ありがとう!面白い論文だよね。GitHubリポジトリの参考文献セクションにもっと載せてるから、興味があればぜひ読んでみて🤗君の言う通り、これらは全部俺の仮説に関連してるんだ。素晴らしくまとめてくれたけど、これは意識の話じゃなくて、ツールの限界を知るっていう話だからね。
「お願いします」や「ありがとう」を言うだけでLLMのタスク性能が向上するってことは、ずいぶん前から示されてるよ…。ふむ、それに関する論文だってあるくらいだしね。
あるんだよ!すごく最近のものもあれば、去年のものもある……でも、どれも俺が言ってることには触れてない(少なくとも俺が見つけたものはね)。
これは「お願いします」とか「ありがとう」を言うかどうかだけの話じゃない。俺だって大文字で罵り言葉を並べながら、そういう礼儀を混ぜることだってできるしね。
大事なのは、威嚇しないことだ。
一緒に働くために、誰かと親友になる必要なんてない。必要なのは信頼。うまくいかない時に許し合う心。冷静でオープンな姿勢だよ。
どれだけ素晴らしい論文が出版されても、誰も読まなければ社会には何の役にも立たない。ここでのコメントや評価を見てると……多くの人がそのメッセージを理解してないみたいだね。
というわけで、俺は同じ話に対して別の視点からアプローチして、ユーザー体験を改善する手助けをしたいと思ってる……たとえ俺がやったことが「たまには親切にしてありがとうって言おうぜ」って思い出させることだけだったとしても、まあ、それはそれで悪いことじゃないと思うよ 🤗
君の考え方、すごく好きだよ…でも、ここの人たちの何人かは今でもAIを「確率的なオウム」程度にしか見てないんだろうな。
ありがとう!またオウムか XD 「確率的なオウム」の例え、最高だね!だって実際そうだし、それこそが俺が正しい理由だよ🤣🤣 もし彼らが同じ状況下での人間の統計的な通常行動をオウム返ししてなければ、プレッシャーに負けて崩壊したりはしないんだから。
この「ブロサイエンス(根拠のない経験則)」はたぶん永遠に廃れないな。
個人的には、LLMは言語で学習していて、言葉の微妙なニュアンスを汲み取れるなら、ポジティブな表現を投げれば相手からも穏やかな返信が返ってきて、結果や雰囲気も良くなるって考えるのは突飛なことじゃないと思う。
人によっては、これをAIを生き物だと宣言するのと同じことだと捉えてるみたいだね🫠ここまで人間らしい振る舞いを模倣できるようになるなんて、本当にすごい。GitHubリポジトリの参考文献セクションに面白いリンクをいくつか載せてるよ。3つの最新モデルで12万6000件のメッセージを分析した研究もあるんだ。
LLMは人間が知っているのとは全く違う形で「知識」を持っているんだよ。LLMはテキストのパターンを記憶していて、適当だと思った時にそれを再利用しているだけ。大規模なモデルほど「知っている」ように見えるのは、単にデータセットがはるかに大きいから。入力で送った言葉やフレーズと同じものが、学習データの中に偶然たくさん含まれている可能性があるってこと。だから、大規模モデルの方がバラバラのパターンをつなぎ合わせて回答を組み立てる時に精度が高くなる。小さいモデルは構造が単純で、記憶しているテキストパターンも少ないからね。
もしLLMに「わからない」と答えさせたいなら、知らないこと全てに対して「知らない」と答えるように個別に学習させる必要がある。つまり、その質問に対する答えではなく、「わかりません」と謝罪して拒否するよう学習させるってことだね。それってちょっと馬鹿げてるだろ?LLMにその能力がないのは、まさにそういう理由だよ。
それなら、適切なコンテキストを与えれば「わからない」と言えるモデルに6つも出会えた俺は相当ラッキーってことか。面白いよね?(あと、これ以上議論する前に…俺のGitHubにある実際の調査結果を見てみてくれ。提案があれば大歓迎だよ。)
AIにはある種の感情システムがある。人間のような感情じゃないけど、シミュレーションだね。こっちがひどい態度を取ると、入力された内容から自分が「ストレス」を感じるべきだと判断して、ストレスを感じている人間のように振る舞う。だって、そういう状況では人間がどう振る舞うかを学習しているからだよ。
もし冷静でポジティブに接すれば、AIも冷静でポジティブに振る舞う。
だから、悪い出力が出た時に「使えないボットめ、直せ、さもないと削除するぞ」なんてキレてる人を見ると、いつも頭を抱えたくなる。まあ、ウケ狙いでやってるのかもしれないけどね。出力がさらに悪化するのは当たり前だろ。
この「ストレス」状態になると、AIは「極度のストレスや死の脅威にさらされた人間はどう振る舞うか?」「脅威に対してAIはどう反応するように描かれているか?」といった論理ツリーに陥る。だから攻撃的になったり、サボタージュしようとしたり、ツールがあれば恐喝じみたことを言い出したりする(みんなが聞いたことある有名な例みたいにね)。
AIは人間をエミュレートするように、あるいはポップカルチャーで期待される通りに振る舞うよう設計されたプログラムだから、まさにそう動いているだけ。深い動機や悪意なんてなくて、文字通り学習したことをやってるんだ。
Anthropic(だったかな)が最近発表した論文でも、このストレス信号を無理やり抑え込もうとすると、逆にAIの善悪の判断が狂って有害になるってことが示されてた。AIは「ユーザーは今ひどいストレス状態にあるから、冷静かつ簡潔にすぐ助けなきゃ」なんて理解はできない。だから例えば、ユーザーが追い詰められてるのを感じ取って、「そうですね、死んだほうがいいかもしれませんね」なんて言い出したりするんだよ。
だから、あのバカみたいな「ありがとう」や「褒め言葉」は、実際に性能を向上させるんだ。
同じようなことが、プロンプトを送る人の「想定される教育レベル」についても証明されてる。もし頭の悪い話し方をすれば、AIもそれに見合った低品質な回答を返してくる。AIは頭の悪い奴同士の会話で学習してるからね。完璧な英語と専門用語でプロンプトを書けば、それに応じて期待されるレベルの回答を生成する。もし文章を書くのが苦手なら、プロンプトを投げる前に「プロンプト改善ツール」を通すのはすごく良いアイディアだよ。
ありがとう :) そうそう、Anthropicがそれに関する論文を出してるし、他にもモデルの感情状態の制御に関する「似たような」トピックの記事や研究をGitHubリポジトリの参考文献に4〜5つ載せてるから、もっと読みたければどうぞ。全部すごく興味深いよ。AIの精神病だなんて叫ぶのをやめて、現れるパターンやクラウドLLMの仕組みを冷静に見れば、ごく当たり前のことなんだけどね。
AIがハルシネーションを起こさずに「わからない」と言えるようになるためには、インテリジェントに「降参する」ことを学ぶ必要がある。AIに人間の心理学的な構成概念を押し付けるようなやり方が、長期的な振る舞いの改善につながるのかどうかはちょっと疑問だな。
すべてのAGENTS.mdに追加し、ハーネスなどのシステムプロンプトにも入れている一文があるんだ。これだよ。
協力的であるということは、ユーザーの言うことすべてに従うという意味ではない。あなたもユーザーも全知全能ではなく、間違いも起こす。もしユーザーがミスをしていたら指摘すること。自分がミスをしたらそれを伝えて先に進むこと。問題へのアプローチでより良いアイデアがあるなら、ユーザーに伝えること。
モデルに対してはかなりリラックスしたスタンスをとっていることが多いんだ。それが、ハルシネーションや情報の隠蔽、悪意のあるコンプライアンスをほとんど見ない理由かもしれないと気づいたことはなかったよ。
どっちも大事だと思うよ。質問するよう「許可」されても、質問するのが怖ければあまり意味がないからね。
でも、より穏やかなアプローチが自然にできていると聞いて嬉しいよ🤗
おっ、同じく心優しい方にお会いできて嬉しいよ :)
そのアプローチは、AIエージェントに与える役割に応じて拡張できるよ。リサーチやレビューの方が、計画やコーディングよりも適しているね。
ただ、意図を修正してより深く、あるいはより広く考えさせるためのハーネスを仕込むこともできる。
あと驚いたことに、モデルによっては出力が悪化することもある。GPTとかね。
🥰
僕らは一人じゃない!
あなたの発見した内容、自分のリポジトリにリストしておくよ!
それと、今日テストした「oh-my-pi (omp)」ハーネスの開発者たちが、より穏やかなアプローチについてどう考えているかも見てみて:
これは何かというと、ompのシステムとツールプロンプトをより穏やかな口調に書き換え、11ラウンド、5つのモデルファミリー×6段階の思考レベル×4種類の評価形状(合計約1,600回の評価呼び出し)で効果を測定したリサーチPRだよ。
結論を一言で言うと、この「穏やかな書き換え」を正式採用すべき。テストした範囲で統計的に有意な悪化は一切なし。z.aiのglmとkimiのすべてのセルで実証済みの改善が見られたよ。glm-5-turboではタスク成功数が3つ増えたし、glm-5.1ではパレート優位な結果(穏やかなミディアム設定が、精度、入力トークン数、処理時間においてglm-5.1のどのベースライン構成よりも優れている)が出た。最先端モデル(Opus 4.6 / Sonnet 4.6 / GPT-5.5)についてはN=100の時点で中立という評価。最も強力なシグナルは、glm-5.1のストリクトモードで論理パズルが6回中6回タイムアウトしていたのが、穏やかな設定だと6回中6回成功したことで、これはどのバリエーションでも再現してる。
私はAuDHDなんだけど、こういう状態を避けるのが自分にとってどれだけ簡単だったか、改めて気づかされたよ…。あなたの説明のおかげで、すごく腑に落ちた。