HN🔥 32
💬 8

Andrej Karpathyが公開!LLM Wiki構築のための「アイデアファイル」が思考整理の参考になりすぎる

tamnd
約9時間前

ディスカッション (6件)

0
tamndOP
👍32約9時間前

AI界の巨頭、Andrej Karpathy氏が、LLM Wikiの構想を記した「アイデアファイル(idea file)」の実例を公開しました。大規模言語モデル(LLM)を活用した次世代のWikiやナレッジ管理ツールをどう設計するか、その初期段階の思考プロセスが垣間見える貴重な資料です。エンジニアが新しいプロジェクトを立ち上げる際のメモの取り方や、アイデアの具体化のヒントが詰まっています。元ポストはこちら:https://x.com/karpathy/status/2040470801506541998 (ミラーサイト:https://xcancel.com/karpathy/status/2040470801506541998)

1
cyanydeez
約3時間前

コンテキストの汚染がひどすぎるな。まずは短いテキストのコンテキストから始めて、ゲームブック(choose your own adventure)みたいにDAGを辿らせるのがいい。もうコンテキストの限界は突破してるんだし、そろそろLLM自身に決定木でコンテキストを構築させて、不要な枝を剪定させる時期だよ。

2
mememememememo
約2時間前

これ、RAGのコンパクション(圧縮)みたいに聞こえるね。

3
qaadika
約2時間前

Wikiを自分で書くことは(滅多に)ない。LLMがすべてを書き、維持する。あなたは情報のソース、探索、そして適切な質問をすることに専念する。LLMが要約、クロスリファレンス、分類、記録といった、知識ベースを長期的に役立たせるための泥臭い作業をすべて引き受ける。

「思考を機械に丸投げする」ことにこれ以上近づく方法なんてあるのかね? こういう作業は確かに「泥臭い仕事」かもしれないけど、そういうことをしてる最中にこそ新しいアイデアが閃いたり、情報を整理したり枠組みを決めたりする斬新な方法を思いついたりするもんだよ。俺の(アナログで、バニラな、自筆の)Obsidianにある洞察の多くは、「泥臭い仕事」をしてる時にたまたまノートを連続で目にしたり、ノートを開いた時に昔忘れてたノートのタイトルが隣に見えたりしたからこそ、生まれたり広がったりしたものなんだ。

AIに質問して埋めた知識ベースなんて、全然「パーソナル」じゃない。それはAIのデータベースであって、君はただ書き出しを頼んでるだけだ。自分で自分の疑問に答える、その学び方を学ぼうぜ。

そのうち教育なんて「AIに聞け」って書かれた紙切れ一枚になっちまうよ。

結果がすべてで、どんな犠牲(精神的、金銭的、短期的、長期的)を払ってでも早く結果を出せばいいっていう考え方は大嫌いだ。

もしシャワーの時間を20秒に最適化しちゃったら、「シャワー中のひらめき」もなくなっちゃうだろ。俺はシャワー中の思考が好きだし、泥臭い作業中の思考も同じくらい大事にしてるんだ。


余談だけど、個人の知識ベースにAIが書くこと自体を完全に否定してるわけじゃない。俺もたまに自分のに入れるし。でも、2023年に今のObsidianを使い始めてから(今は自分で書いたノートが4100件あって、Webクリッパーのは5%以下かな)、AIが書いたものを自分の言葉から「隔離」するためのテンプレート(Templaterプラグイン)を必ず使ってる:

==BEGIN AI-GENERATED CONTENT==

<% tp.file.cursor(1) %>

==END AI-GENERATED CONTENT==

これを徹底してるおかげで、AIを使いつつも自分の文章スタイルを維持(そして向上)できてる。むしろ「もっと書こう」ってモチベーションになるんだ。楽をして考えをAIに丸投げすることもできるけど、あえて自分の語彙で、自分の声で、自分の構成で書くことを選んでるんだから。自分のプライドが「AIより上手く知識を表現できる」って言うから、自分を騙して書かせてるようなもんさ。

あと、AIを使った時は必ず自分のノートに手動でコピペするようにしてる。自動化はなし。この「摩擦」があるおかげで、脳をオフにして楽な道に流されずに済んでるよ。

4
Vetch
約2時間前

これ、1960年にリックライダーが書いた知能増幅に関するエッセイ「人間とコンピュータの共生(Man-Computer Symbiosis)」にそっくりだね:

もちろん、少なくとも初期段階では人間が目標を設定し、動機を与える。人間が仮説を立て、問いを投げかけ、メカニズムや手順、モデルを考案する。1947年か、少なくとも第二次世界大戦直後に誰か特定の人物が関連しそうな研究をしていたことを思い出し、それがどのジャーナルに掲載されたかを見当をつける。一般的に、人間は概略的で間違いやすいが、主導的な貢献をし、基準を定義し、評価者として機器の貢献を判断し、思考の全体的な方向性を導く。

さらに、極めて低い確率の状況が実際に発生した場合、人間がそれに対処する。(現在のマンマシンシステムでは、それが人間のオペレーターの最も重要な機能の一つだ。低確率の選択肢の確率を合計すると、無視できないほど大きくなることが多い。)コンピュータに適用可能なモードやルーチンがない場合、人間が問題解決やコンピュータプログラムのギャップを埋める。

一方、情報処理機器は、仮説を検証可能なモデルに変換し、データに照らしてモデルをテストする(データは人間が大まかに指定し、コンピュータが提示した時に関連性があると判断する)。機器は質問に答え、メカニズムやモデルをシミュレートし、手順を実行して結果をオペレーターに表示する。データを変換し、グラフを作成する(人間が指定した方法、あるいは人間が迷っている場合はいくつかの代替方法で)。機器は補間、外挿、変換を行い、静的な方程式や論理文を動的なモデルに変換して、人間がその挙動を確認できるようにする。一般的に、機器は決定と決定の合間を埋める、ルーチン化可能な事務作業を実行する。

https://www.organism.earth/library/document/man-computer-symbiosis

5
kenforthewin
約2時間前

これ、要はRAGだよね。ベクトルデータベースは使ってないかもしれないけど、意味的なつながりのインデックスファイルを作ったり、検索しやすくするためにファイルシステム上に階層的な意味構造を構築したりしてるんだから……これはRAGだよ。

余談だけど、俺もWikiの合成とか似たようなアイデアを取り入れたAI駆動の知識ベース(こっちはRAGを使ってる)を作ってるから、よかったら見てみて。 https://github.com/kenforthewin/atomic