HN🔥 292

💬 123

たった1分で高精細な動画を生成！26億パラメータのオープンソース世界モデル「SANA-WM」が登場

mjgil

約14時間前

ディスカッション (11件)

mjgilOP🔥 292

約14時間前

SANA-WMは、720p・1分間の動画を生成可能な、26億パラメータを誇るオープンソースのワールドモデルです。

🔗 リンク先:https://nvlabs.github.io/Sana/WM/

Fischgericht

約13時間前

で、ダウンロードはどこ？Githubで見当たらないし、ウェブサイトのダウンロードボタンも無効になってるんだけど。

あと、これRTX 4090の24GBメモリで動くかな？

よろしく！

mejutoco

約13時間前

どれもビデオゲームみたいに見えるね。たぶんUnreal Engineを使って学習用の合成データを作ってるんじゃないかな。

mccoyb

約12時間前

ビデオゲームの視点から、こういう世界モデルには結構懐疑的だ（だからこの投稿はかなり個人的な視点だよ）。

自分はゲーム開発者じゃないけど、お気に入りのゲームにはどれも深い「意図」が感じられるんだ。例えばFromSoftwareのゲームとか、最近だとLies of Pなんかは、配置がずさんなアイテムなんて一つもない。ほとんど全てのオブジェクトが意図を持って配置されている。

そういう意図が欠けているゲームは、往々にして生気がないように感じられるんだよね。没入感を削ぐような体験に遭遇したり、開発者が伝えようとしている体験から引き剥がされてしまう感じ。

世界モデルがこういう類の「意図」を捉えられるレベルになるなんて、想像しにくいんだ。トップクラスのLLMだってライティングでは常に失敗するし、コードでさえそう。それに、それらの媒体が提供する体験の幅は、ビデオゲームのユーザーインタラクションの深さに比べると「狭い」ことが多い。

こういう世界モデルが、意図のある体験を作りたい人にとってモジュールとしてどう役立つのか、よくわからないんだ。使い道についてもあまり詳しくない（LLMはある程度モジュール化されていて、テキストを生成し、人間がそれを編集したり別のLLMが処理したりできる）。ここでのビデオ出力も同じことが言えるの？

言いたいのは、この世界モデルには感銘を受けたけど、ライティングにおけるLLMと同じで、結局何を目指して作っているのかがよくわからないってこと。より満足度が低くて、人間味のない体験を素早く作れるようになるだけ？今のところの最大の利点は、ロボットシステムがアクションをシミュレートできること（世界を作り出し、その影響を想像する）くらいじゃないかな。

全体として、これから先、僕らが経験するあらゆるものから意図がどんどん失われていく世界に向かっている気がしてならないよ。すべてが非個人的で、ノイズが多くなっていくというか。

Incipient

約12時間前

2.6Bのモデルで1分間のビデオをそのクオリティと整合性で出力するって、正気とは思えないんだけど？

jubilanti

約11時間前

モデルのウェイトが「近日公開」ってことは、現状はペーパーウェアってことだよね。ウェイトが公開されてないのに、どうしてこれが「オープンソース」と言えるの？

2.8Bのモデルからこれが出てくるっていうのは懐疑的になって当然だよ。ウェイトが出てから言えって感じ。

resist_futility

約10時間前

警告：あのページで自動再生される動画を眺めていたら、通信量が350Mbpsまで跳ね上がったぞ。

alloyed

約9時間前

素朴な疑問なんだけど、ここで生成されているものの何が「世界（world）」なの？物理空間の抽象的な表現（例えばゲームエンジンのシーングラフみたいなもの）があるわけ？それとも単に「他の動画生成AIより物理的に整合性が取れている」って意味で言ってるだけ？

agentifysh

約9時間前

これをGPUで動かせるのはかなりすごいね。不満や懸念を言っている人も見かけるけど、まだ初期段階だし、これからもっと進化するはず。ゲームにどういう影響を与えるかすごく楽しみだよ。

mkl

約4時間前

2.6Bって話だけど、実際にはこうだよね：

専用の17Bの長尺ビデオ用リファイナーが、ベースとなる長尺ロールアウトの上にテクスチャ、モーション、後半の品質を向上させる

w10-1

約3時間前

要約：

720p、1分間のビデオ生成、6自由度のカメラ制御

nlが言った通り、

モデルはここにある：https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7... (https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_720p)

READMEには「研究目的のみ」と書かれているね。

コードライセンスはApache 2.0。

モデルライセンス（nvidia open...）にはこうある：

    モデルは商用利用可能。
    派生モデルを作成・配布することは自由。

（いつものことだけど、モデルの出力は制限なし、かつ人間による創作物がなければ著作権も保護されないよ）