HN13269

ノルウェーで発見！2ペタバイトのHuawei製フラッシュストレージとLLMトレーニングの衝撃

Norway's 2 petabytes of Huawei flash storage and LLM training

rbanffy・約2か月前

議論

11件

0：rbanffyスレ主▲132約2か月前

ノルウェーにて、Huawei製のフラッシュストレージ2ペタバイト分を活用したLLM（大規模言語モデル）のトレーニング環境が構築されているようです。膨大なデータセットの処理能力が注目されています。

1：ipsum2約2か月前

r/datahoarderの一般的なユーザーが地下室に持ってるストレージ量って、だいたいこんなもんだよな。ハードドライブ100台未満ってところか。

2：Levitz約2か月前

Husnesが指摘したように、ノルウェーのような小国は、英語圏以外のすべての国が直面する問題、つまり自分たちの言語、文化、歴史を反映したAIをどう構築するかという課題に取り組んでいる。AIには構築者だけでなく、守護者も必要なんだ。

残念ながら答えは、ほとんどの場合「無理」ってことだと思う。

そんなことを成し遂げるには強力な政治的意志が必要だけど、少なくとも俺の環境では、足並みを揃えるなんてほぼ不可能に思えるよ。

コストも法外だし、それ以前に、ローカルな独自性を重視するような連中は、外国企業に丸投げして実装させることを完全に容認しているか（結局、やろうと思えばバスク語でもChatGPTは使えるしな）、そもそもAIという存在そのものに反対しているかのどっちかだからね。

3：solenoid0937約2か月前

OliviaシステムはHPE Cray Supercomputing EXシステムで、448個のGPUと64,512個のCPUコアを搭載している。

この程度のハードウェアで自国専用のLLMをトレーニングしようとするなんて、オープンソースモデルでLoRAやるのとは訳が違うし、ものすごいミスというか危険信号に思える。

こんなリソースでまともなLLMをフルスクラッチで学習させるなんて無理だし、それを目標に掲げてるってことは、最初から使い物にする気がないんじゃないか？

となると、「一体誰の金をドブに捨ててるのか、そして何のために？」って疑問が湧いてくるよ。

4：kvam約2か月前

ノルウェー人として言わせてもらうけど、これって見当違いじゃないか？誰がこのLLMを使うんだ？どこで？何のために？ノルウェーの文化をもっと知ってもらいたいのが目的なら、基盤となるデータを一般のエージェントにとって検索しやすく、扱いやすい形にするほうが先だろう。

5：TrackerFF約2か月前

自分もノルウェー人だけど、国立図書館のテキスト検索はほぼ毎日使ってるよ。膨大な量のテキストを検索するためのUIと機能に関しては、本当にトップクラスに使いやすい。

6：dalemhurley約2か月前

へえ、実際にデータ使用の許可を求めて、企業側が「いいよ」って答えたのか。それはすごいな。

7：arjie約2か月前

いや、これはおかしいだろ。2PBのフラッシュストレージなんて20万ドルくらいだぞ。個人でも手の届く範囲だ。でもまあ、そこまでのストレージ容量は必要ないのかもしれないけどね。

8：timmg約2か月前

いっそのこと（あるいは並行して）、ノルウェーは独自の学習用データセットを構築して、すべてのモデル開発者に（無料で）公開したらどうだろう。

最先端のモデルにノルウェー語やその文化を学習させるほうが、彼らの目指すゴールに到達するための、より良い（あるいは補完的な）方法だと思うんだけどな。

9：dzhiurgis約2か月前

国民一人あたり約350MBってことか。人間が1時間にタイピングできる量は2〜6kb程度だから、休みなしで打ち続けて13年分って計算になる。一体どこからそんなデータが出てくるんだ？圧縮も抽出もされていない、そのままのウェブサイトデータとかかな。

10：KeplerBoy約2か月前

この主張ってどれくらい正しいんだろうか？
「英語ベースでトレーニングされた世界規模のLLMは、現地語で記述された各国の歴史、ニュース、文化を知らないため、独自の言語を持ちながら独自のLLMを構築していない国は不利になる」と彼は主張していた。

でも大手プレイヤーはみんな、言語や品質を問わず、リモートでアクセスできるデータは基本的に全部学習に使ってると思ってたから、彼の見解はLLMが普及し始めた初期の意見のように聞こえるよ。