ディスカッション (11件)
LLM(大規模言語モデル)の運用において、「なぜ多くのトークンを費やす必要があるのか? 少ないトークンで事足りるなら、それが正義だ」という、コストと効率を極限まで追求するシンプルかつ本質的なアプローチについての投稿です。トークン数を絞ることで、コスト削減だけでなく、レスポンスの高速化やコンテキストウィンドウの有効活用といった大きなメリットが得られることを示唆しています。
正直どうかな。Claudeに原始人みたいに話しかけてみたけど、回答の質が落ちる気がする。誤解も増えるし。結局、前の指示を説明するのにもっと言葉が必要になる感じ。あと、文脈が少ないとタイポした時のダメージもでかいよね。誰か同じこと思わない?ただの気のせいかもだけど。俺はよく「肉付け」をするんだ。そのほうがLLMの出力がいい気がする。原始人みたいに喋ると、LLMも自分の回答から得られる思考や情報が減っちゃうんじゃないかな。
これ面白いね。単純なトークンじゃなくて、よりリッチなトークンを目指すっていう同じ方向性のアイデアも見てみたい。トークンを節約したいなら、「質のいい」トークンを使えばいい。例えば「make good(良くして)」って言う代わりに「improve idiomatically(慣用的に改善して)」とか。ニーズによるけどね。俺はトークン一つひとつを、自分がアクセスできる空間を曲げたり広げたり制限したりするチャンスだと思ってる。言語は現実に適用する美しいモジュレーターだから、原始人の鼻息みたいな喋り方より、衒学的に洗練された使い方をしたほうがいい結果が出ると思うんだ。まあ、ベンチマークを見てみようぜ!
作者です。リポジトリの意図よりも強い主張に対して反論してる人が何人かいるみたい。あと、これはジョークのつもりであって、研究レベルの考察じゃないからね。この機能(skill)は、隠れた推論や思考トークンを減らすためのものじゃない。Anthropicのドキュメントでも思考時間を増やすとパフォーマンスが上がるとされてるし、そこを否定するつもりはないよ。狙っているのは目に見える回答(completion)の部分。前置きやフィラー、洗練されてるけど本質的じゃないテキストを減らすこと。だから、回答後の出力が「原始人化」されても、コード自体はこの機能の影響を全く受けてないよ :) RL(強化学習)への信頼が薄いのも意外だな。Anthropicのモデルはコーディングエージェントとしてかなり調整されてるから、そう簡単に性能をガタ落ちさせるのは無理だと思う。妥当な批判としては、READMEの「約75%」って数字が厳密なベンチマークじゃなくて予備テストの結果だって点かな。ここはもっと慎重に表現すべきだったし、今ちゃんとした評価(eval)をやってるところ。あと、スキルのロードは無料じゃない。Anthropicも言ってるけど、最初にメタデータだけ読み込むにしてもコンテキストを消費する。だから、本当の評価はエンドツーエンドで行う必要がある:入力トークン合計、出力トークン合計、レイテンシ、品質/タスクの成功率。簡潔なプロンプトが、質を落とさずに回答の長さを大幅に短縮できるっていう研究も実際にある(タスク依存だし、分野によっては悪影響もあるけど)。今の僕の立場は、面白いアイデアだし、一部の人が思ってるより主張の範囲は狭い。ベンチマークが必要で、それが出るまではREADMEをより正確にするべき、って感じかな。
Grug脳(原始人脳)な開発者がAIツールに出会った、的なやつね。 (https://grugbrain.dev)
LLMにデフォルト以外の話し方を強制すると、知能や推論能力が下がるんじゃないかとずっと思ってた。トークン単位で見た時、最後のレイヤーのいくつかは「何を言うか」の推論か、「どう言うか」の構成か、どっちかにしか使えなくて、両方を同時にはできないんじゃないかな。(似たような理由で、思考モデルが問題を推論する前に自分の言葉で書き直すのを好むんだと思う。プロンプトへの注意にかかるトークンごとの再パースのオーバーヘッドを減らして、「ユーザーが何を言おうとしてるか(NLP的なこと)」か「ユーザーが何を意図してるか(推論的なこと)」のどちらかにしか集中できない初期レイヤーを、後者に集中させられるようにしてるんだと思う。)この効果を検証するための厳密な実験(話し方の指定がある場合とない場合でのベンチマークスコアの測定)はやってないけど、副次的な実験は(偶然)やったことがある。LLMとの共同執筆やロールプレイで、LLMが「何を言うか」について深く推論しなきゃいけない(=多くの事実に注意を払わなきゃいけない)時ほど、出力スタイルやキャラ付けの指示を守れなくなることに気づいたんだよね。
これいいけど、うちの会社、トークンの消費量で俺の評価決めるんだよね。Claudeを無駄に冗長にするやつはない?
素朴な疑問なんだけど、原始人の喋り方のイメージってどの文化でも同じなの?「ワンワン」とか「ニャー」が文化によって違うみたいに、原始人の喋り方も文化で違ったりするのかな?
俺、これいいアイデアだと思う。普通の言葉、無駄に複雑。意味、邪魔する。みんな、いつもこう喋ればいい。感情、操る、裏、ない。情報だけ。複雑、バカ。
これはGPT-3.5の頃にも、GPT-4の頃にも試された実験だね。これが一般的なテクニックとして普及してないのには理由があるよ。
このプロジェクトを否定するわけじゃないけど、LLMに「簡潔に要点だけ言って」「反射的に肯定するんじゃなく核心を突く質問をして」「お決まりのフレーズや流行りの文体は避けて」って伝えるだけで回答の質が上がるのは、昔からよく知られた話だよね。