ディスカッション (10件)
「ナレッジワーク(知的生産活動)」とは一体何なのでしょうか?AIが急速に進化する中で、かつて重要視されていた知識の整理や事務的な作業は、その本質的な価値を失いつつあります。私たちが「仕事」と呼んでいるものの多くが、実は単なる「模倣(シミュラークル)」に過ぎないのではないかという問いかけです。AIが効率化を加速させる今、エンジニアとしてどのような価値を創造し、この虚像を脱却すべきかを考えるべき時が来ています。
誰かの出力は誰かの入力になる。LLMを使って大量生成すると、受け取った相手もLLMを使ってそれを解析し、そこからまた自分の出力を生成する。結局、最終的な消費者が文句を言ったとき、どこで歯車が狂ったのか誰も突き止められなくなるんだ。
"RLHFの判定者が答えを気に入っているか"
数学やコーディングの成功率を向上させるための強化学習(RLVR:検証可能な報酬を用いた強化学習)は、例外的なケースかもしれないな。
この記事では、人間のナレッジワークの質はタイプミスや誤字といった指標で判断しやすかったが、AIにはそういった「特徴」がないのが問題だと主張してるね。
正直、どちらの主張にも同意できないかな……事実として正しくて書式も整ってるけど、概念レベルで見ると極めて低品質なナレッジワークを人間が作成した例は山ほど見てきたし。
それに、AI特有のクセなんて今じゃすぐ見分けがつく。実際、あの独特な言い回しは認識できるどころか、紛れもない特徴になってる。<<ほら、今私がやったみたいに。
企業クライアントと10年仕事してきた身からすると、LLM以前の時代がナレッジワークの黄金時代だったとは全く思えない。当時は当時で「ナレッジワークのフリをしたゴミ」みたいなのが溢れてたよ。
50%の確率で失敗するテストがあったとして、それは価値があると言えるだろうか?失敗率50%という数字だけ見ればコイン投げと同じだけど、それ単体ではテストがノイズなのか、それともダメな状態と良い状態を判別できているのかまでは分からない。テストが有用であるためには、YoudenのJ統計量(https://en.wikipedia.org/wiki/Youden%27s_J_statistic )が正の値である必要がある。つまり「感度+特異度-1」が重要で、単なる失敗率50%という情報からは、感度も特異度も算出できないんだ。
この記事にも同じ問題があるように見える。著者はLLMが多くのエラーを出すことに気づき、そこからLLMは無価値でナレッジワークの模造品しか作れないと結論づけている。LLMがナレッジワークの評価方法を破壊しているという指摘は興味深いが、結論として「LLMは模造品しか作れない」と言い切ってしまった時点で、論理が破綻しているよ。
結局、何かを理解するっていうのは、実際に自分でやってみることなんだ。そして理解できない(それはそれでOK!)場合は、たとえ代替指標であれ何であれ、他人に頼るしかない。今後の仕事が不安定な状況にあるというのは同感だ。やることを減らして信頼を増やすというのは、ある地点まではうまくいくけど、それ以上は難しい。
面白い記事だけど、すぐに古くなる古い新聞のコラムを読んでいるような気分だね。2、3年もすれば完全に時代遅れになっていると思うよ。
これはアカデミアの現場では既に明らかな問題になっているよ。記事が示唆している理由とは少し違うけれどね。
質の低い仕事の「特徴」が消えつつあるというより、AIで作られた仕事を人間が精査するコストが上がりすぎて、もう人間だけでは対応できなくなってきているんだ。例えば経済学のジャーナルだと付録が数百ページに及ぶこともあるわけで、読み込むにはあまりに時間が足りない。
他の分野のジャーナルでも、提出数(量的側面)だけでなく、個々の論文をチェックする手間(質的側面)において同様のプレッシャーを感じているのか、ぜひ聞いてみたいね。
この業界にいる人間からすれば、かなり明白なことだと思う。残念なことに、あまりにも莫大な金が動いているから、大手プレイヤーたちは自分たちの都合のいいものを力技で押し付けてくるだろうね。
「彼らは自信満々に聞こえるだけだぞ」っていう警告は、1年前のプロジェクトで何度も言ったよ。開発者がLLMの出力を盲信して、明らかに間違っているものをそのまま提出するのをやめさせようとするのを諦める前の話だ。LLMが魔法のように何でも知っていると思い込んだせいで、そのチームのドキュメントは完全にゴミと化したよ。