ディスカッション (9件)
近年のAIブームによって、データサイエンティストを取り巻く環境は激変しました。かつて持て囃された専門職としての地位は、ノーコードツールや自動機械学習(AutoML)の台頭により、揺るぎ始めています。しかし、本当の勝負はこれからです。単なるアルゴリズムの実装者から脱却し、ビジネスの課題をデータで解き明かす「真の戦略的パートナー」として、データサイエンティストが再び現場の主導権を握るためのロードマップを考察します。
今エージェントを構築しているデータサイエンティストたちによく言っていることがあるんだ*:1. コンテキストデータはリクエストのための学習データだと考えること(LLMは提供されたコンテキストデータに基づいてインコンテキスト学習を行うから)。2. 評価(Evals)はエージェントのパフォーマンスを測定するためのテストデータだと考えること。エージェントのトレースからデータを収集して手動でラベル付けをするんだ。もしLLMをジャッジ役としてラベル付けに使いたいなら、それにもまた高品質な例(学習データ)が必要になる。LLM-as-a-Judgeもインコンテキスト学習をするからね。*拙著より - https://www.amazon.com/Building-Machine-Learning-Systems-Feature/dp/1098165233
最近話題になったpg_textsearch(https://news.ycombinator.com/item?id=47589856 )のようなケースは、この手の開発スタイルが成功する完璧な例だと思う。明確なテストケースやベンチマークが用意されているからね。ただ、新規開発(グリーンフィールド開発)の場合、仕様書のようにテストケースを書くこと自体が、コードを書くのと同じくらい、あるいはそれ以上に難しい。それに、LLMは局所最適解に陥りやすい。コードベースのアーキテクチャが固まってしまうと、大規模なリファクタリングを検討することはほとんどない。ある意味、MLにおける過学習とよく似ているね。
AIが未知のデータに対してどれだけ汎化できるかをテストするための実験設定や、確率的なシステムのデバッグ、優れたメトリクスの設計が仕事の大半だ。
自分の経験から言うと、この話には重要な作業が一つ欠けている。それは、世間でどう思われているかはさておき、実際のデータが何であるかを確認することだ。
本当にそうだな……。複雑なLLM-as-a-judgeのワークフローを構築するよりも、ただエージェントが動く様子を観察しているほうがはるかに有益だと感じるよ。
結局は似たようなループだよね。「何が良い状態か」を定義して、どれくらいズレているかを測定し、反復する。ただ、長年それをやってきた人たちは、プロンプトエンジニアにはない先行者利益を持っていると言えるだろう。
GenAIソリューションを構築する上で心に留めておくべき良いプラクティスではあるけど、「データサイエンティスト」という職業がこれで安泰だとは思えないな。悲観的な見方をさせてもらうよ。データサイエンティストが評価されていたのは、ビジネス価値を生むモデルを作る能力があったからだ。モデル作成は高度な数学的スキルが必要な魔法のようなものだった――実際はXGBoostを当てはめて終わりだったとしてもね。データサイエンティストは価値創造のイネーブラーだったんだ。GenAIにおいて、価値創造はLLMプロバイダーとAPIを叩くエンジニアリングチームがやることであって、数学的な深い知識は必要ない。デコーダーのみのTransformerで勾配がどう計算されるかを知っていても、LLMに指示を守らせる役には立たない。ビジネス関係者自身がチャットボットをいじり倒している現状では、専門家が何かを提供しても、彼らにはメールを要約するのと変わらない作業をしているようにしか見えないはずだ。残るのは評価とモニタリングだけど、これらは地味な作業だし、ビジネス上の価値とはみなされない。むしろ、Copilotで作ったPOCを本番環境に乗せようとする際のお荷物でしかない。とにかく早く形にしたいなら無視してもいい。こういった作業が評価されるのはリスク回避型の巨大企業くらいだけど、そこですら高給取りの統計学者がやるべき仕事だと説得するのは難しいだろう。この先どうなるか?「データサイエンティスト」という肩書きの人間だけがLLM構築を管理できるように説得する?平均的なAIエンジニアがどれだけ優秀かによるけど、専門職としての防壁はもう見当たらないよ。
自分はデータサイエンス/エンジニアリングのバックグラウンドを持っている。AIを使うのは、解空間という鉱山を掘り進んで最適解を探す作業に似ていると思う。解空間は数十億のパラメータとそのカーディナリティの組み合わせだ。プロンプトで探索範囲を絞り込み、セマンティックベースのヒューリスティクスを駆使して最適解へと誘導していく。局所最大値に当たったり、行き止まりに迷い込んだりすることもあるだろう。自分は毎週のようにコードベースをゼロから書き直すことにしている。より汎用的にしたり、不要な複雑さを削ったり、新機能を追加したりして、局所最大値を超えられるよう期待するんだ。
昨日、KarpathyのautoresearchをMLの問題に適用していたところだ。普段MLを教えている身としても、何度も実験を繰り返した末にトークンが返してきた結果には驚かされた。もしKaggleが今も現役なら、AIが総なめにするだろうね。ただ課題として感じるのは、ほとんどのデータサイエンスやMLモデリングの仕事がかなりお粗末だということ。基本的なツールすらよく理解していない人が多い。そんな彼らにAIを渡したところで、道が開けるとは思えない。いつものことだけど、専門家はジュニアたちの力を安く使うのが大好きで、専門知識のない人たちは泥沼を歩かされることになるんだ。