ディスカッション (11件)
ノルウェーにて、Huawei製のフラッシュストレージ2ペタバイト分を活用したLLM(大規模言語モデル)のトレーニング環境が構築されているようです。膨大なデータセットの処理能力が注目されています。
r/datahoarderの一般的なユーザーが地下室に持ってるストレージ量って、だいたいこんなもんだよな。ハードドライブ100台未満ってところか。
Husnesが指摘したように、ノルウェーのような小国は、英語圏以外のすべての国が直面する問題、つまり自分たちの言語、文化、歴史を反映したAIをどう構築するかという課題に取り組んでいる。AIには構築者だけでなく、守護者も必要なんだ。
残念ながら答えは、ほとんどの場合「無理」ってことだと思う。
そんなことを成し遂げるには強力な政治的意志が必要だけど、少なくとも俺の環境では、足並みを揃えるなんてほぼ不可能に思えるよ。
コストも法外だし、それ以前に、ローカルな独自性を重視するような連中は、外国企業に丸投げして実装させることを完全に容認しているか(結局、やろうと思えばバスク語でもChatGPTは使えるしな)、そもそもAIという存在そのものに反対しているかのどっちかだからね。
OliviaシステムはHPE Cray Supercomputing EXシステムで、448個のGPUと64,512個のCPUコアを搭載している。
この程度のハードウェアで自国専用のLLMをトレーニングしようとするなんて、オープンソースモデルでLoRAやるのとは訳が違うし、ものすごいミスというか危険信号に思える。
こんなリソースでまともなLLMをフルスクラッチで学習させるなんて無理だし、それを目標に掲げてるってことは、最初から使い物にする気がないんじゃないか?
となると、「一体誰の金をドブに捨ててるのか、そして何のために?」って疑問が湧いてくるよ。
ノルウェー人として言わせてもらうけど、これって見当違いじゃないか?誰がこのLLMを使うんだ?どこで?何のために?ノルウェーの文化をもっと知ってもらいたいのが目的なら、基盤となるデータを一般のエージェントにとって検索しやすく、扱いやすい形にするほうが先だろう。
自分もノルウェー人だけど、国立図書館のテキスト検索はほぼ毎日使ってるよ。膨大な量のテキストを検索するためのUIと機能に関しては、本当にトップクラスに使いやすい。
へえ、実際にデータ使用の許可を求めて、企業側が「いいよ」って答えたのか。それはすごいな。
いや、これはおかしいだろ。2PBのフラッシュストレージなんて20万ドルくらいだぞ。個人でも手の届く範囲だ。でもまあ、そこまでのストレージ容量は必要ないのかもしれないけどね。
いっそのこと(あるいは並行して)、ノルウェーは独自の学習用データセットを構築して、すべてのモデル開発者に(無料で)公開したらどうだろう。
最先端のモデルにノルウェー語やその文化を学習させるほうが、彼らの目指すゴールに到達するための、より良い(あるいは補完的な)方法だと思うんだけどな。
国民一人あたり約350MBってことか。人間が1時間にタイピングできる量は2〜6kb程度だから、休みなしで打ち続けて13年分って計算になる。一体どこからそんなデータが出てくるんだ?圧縮も抽出もされていない、そのままのウェブサイトデータとかかな。
この主張ってどれくらい正しいんだろうか?
「英語ベースでトレーニングされた世界規模のLLMは、現地語で記述された各国の歴史、ニュース、文化を知らないため、独自の言語を持ちながら独自のLLMを構築していない国は不利になる」と彼は主張していた。
でも大手プレイヤーはみんな、言語や品質を問わず、リモートでアクセスできるデータは基本的に全部学習に使ってると思ってたから、彼の見解はLLMが普及し始めた初期の意見のように聞こえるよ。