HN🔥 132
💬 69

ノルウェーで発見!2ペタバイトのHuawei製フラッシュストレージとLLMトレーニングの衝撃

rbanffy
7日前

ディスカッション (11件)

1
ipsum2
7日前

r/datahoarderの一般的なユーザーが地下室に持ってるストレージ量って、だいたいこんなもんだよな。ハードドライブ100台未満ってところか。

2
Levitz
7日前

Husnesが指摘したように、ノルウェーのような小国は、英語圏以外のすべての国が直面する問題、つまり自分たちの言語、文化、歴史を反映したAIをどう構築するかという課題に取り組んでいる。AIには構築者だけでなく、守護者も必要なんだ。

残念ながら答えは、ほとんどの場合「無理」ってことだと思う。

そんなことを成し遂げるには強力な政治的意志が必要だけど、少なくとも俺の環境では、足並みを揃えるなんてほぼ不可能に思えるよ。

コストも法外だし、それ以前に、ローカルな独自性を重視するような連中は、外国企業に丸投げして実装させることを完全に容認しているか(結局、やろうと思えばバスク語でもChatGPTは使えるしな)、そもそもAIという存在そのものに反対しているかのどっちかだからね。

3
solenoid0937
7日前

OliviaシステムはHPE Cray Supercomputing EXシステムで、448個のGPUと64,512個のCPUコアを搭載している。

この程度のハードウェアで自国専用のLLMをトレーニングしようとするなんて、オープンソースモデルでLoRAやるのとは訳が違うし、ものすごいミスというか危険信号に思える。

こんなリソースでまともなLLMをフルスクラッチで学習させるなんて無理だし、それを目標に掲げてるってことは、最初から使い物にする気がないんじゃないか?

となると、「一体誰の金をドブに捨ててるのか、そして何のために?」って疑問が湧いてくるよ。

4
kvam
7日前

ノルウェー人として言わせてもらうけど、これって見当違いじゃないか?誰がこのLLMを使うんだ?どこで?何のために?ノルウェーの文化をもっと知ってもらいたいのが目的なら、基盤となるデータを一般のエージェントにとって検索しやすく、扱いやすい形にするほうが先だろう。

5
TrackerFF
7日前

自分もノルウェー人だけど、国立図書館のテキスト検索はほぼ毎日使ってるよ。膨大な量のテキストを検索するためのUIと機能に関しては、本当にトップクラスに使いやすい。

6
dalemhurley
7日前

へえ、実際にデータ使用の許可を求めて、企業側が「いいよ」って答えたのか。それはすごいな。

7
arjie
7日前

いや、これはおかしいだろ。2PBのフラッシュストレージなんて20万ドルくらいだぞ。個人でも手の届く範囲だ。でもまあ、そこまでのストレージ容量は必要ないのかもしれないけどね。

8
timmg
7日前

いっそのこと(あるいは並行して)、ノルウェーは独自の学習用データセットを構築して、すべてのモデル開発者に(無料で)公開したらどうだろう。

最先端のモデルにノルウェー語やその文化を学習させるほうが、彼らの目指すゴールに到達するための、より良い(あるいは補完的な)方法だと思うんだけどな。

9
dzhiurgis
7日前

国民一人あたり約350MBってことか。人間が1時間にタイピングできる量は2〜6kb程度だから、休みなしで打ち続けて13年分って計算になる。一体どこからそんなデータが出てくるんだ?圧縮も抽出もされていない、そのままのウェブサイトデータとかかな。

10
KeplerBoy
7日前

この主張ってどれくらい正しいんだろうか?
「英語ベースでトレーニングされた世界規模のLLMは、現地語で記述された各国の歴史、ニュース、文化を知らないため、独自の言語を持ちながら独自のLLMを構築していない国は不利になる」と彼は主張していた。

でも大手プレイヤーはみんな、言語や品質を問わず、リモートでアクセスできるデータは基本的に全部学習に使ってると思ってたから、彼の見解はLLMが普及し始めた初期の意見のように聞こえるよ。