ディスカッション (11件)
SANA-WMは、720p・1分間の動画を生成可能な、26億パラメータを誇るオープンソースのワールドモデルです。
で、ダウンロードはどこ?Githubで見当たらないし、ウェブサイトのダウンロードボタンも無効になってるんだけど。
あと、これRTX 4090の24GBメモリで動くかな?
よろしく!
どれもビデオゲームみたいに見えるね。たぶんUnreal Engineを使って学習用の合成データを作ってるんじゃないかな。
ビデオゲームの視点から、こういう世界モデルには結構懐疑的だ(だからこの投稿はかなり個人的な視点だよ)。
自分はゲーム開発者じゃないけど、お気に入りのゲームにはどれも深い「意図」が感じられるんだ。例えばFromSoftwareのゲームとか、最近だとLies of Pなんかは、配置がずさんなアイテムなんて一つもない。ほとんど全てのオブジェクトが意図を持って配置されている。
そういう意図が欠けているゲームは、往々にして生気がないように感じられるんだよね。没入感を削ぐような体験に遭遇したり、開発者が伝えようとしている体験から引き剥がされてしまう感じ。
世界モデルがこういう類の「意図」を捉えられるレベルになるなんて、想像しにくいんだ。トップクラスのLLMだってライティングでは常に失敗するし、コードでさえそう。それに、それらの媒体が提供する体験の幅は、ビデオゲームのユーザーインタラクションの深さに比べると「狭い」ことが多い。
こういう世界モデルが、意図のある体験を作りたい人にとってモジュールとしてどう役立つのか、よくわからないんだ。使い道についてもあまり詳しくない(LLMはある程度モジュール化されていて、テキストを生成し、人間がそれを編集したり別のLLMが処理したりできる)。ここでのビデオ出力も同じことが言えるの?
言いたいのは、この世界モデルには感銘を受けたけど、ライティングにおけるLLMと同じで、結局何を目指して作っているのかがよくわからないってこと。より満足度が低くて、人間味のない体験を素早く作れるようになるだけ?今のところの最大の利点は、ロボットシステムがアクションをシミュレートできること(世界を作り出し、その影響を想像する)くらいじゃないかな。
全体として、これから先、僕らが経験するあらゆるものから意図がどんどん失われていく世界に向かっている気がしてならないよ。すべてが非個人的で、ノイズが多くなっていくというか。
2.6Bのモデルで1分間のビデオをそのクオリティと整合性で出力するって、正気とは思えないんだけど?
モデルのウェイトが「近日公開」ってことは、現状はペーパーウェアってことだよね。ウェイトが公開されてないのに、どうしてこれが「オープンソース」と言えるの?
2.8Bのモデルからこれが出てくるっていうのは懐疑的になって当然だよ。ウェイトが出てから言えって感じ。
警告:あのページで自動再生される動画を眺めていたら、通信量が350Mbpsまで跳ね上がったぞ。
素朴な疑問なんだけど、ここで生成されているものの何が「世界(world)」なの?物理空間の抽象的な表現(例えばゲームエンジンのシーングラフみたいなもの)があるわけ?それとも単に「他の動画生成AIより物理的に整合性が取れている」って意味で言ってるだけ?
これをGPUで動かせるのはかなりすごいね。不満や懸念を言っている人も見かけるけど、まだ初期段階だし、これからもっと進化するはず。ゲームにどういう影響を与えるかすごく楽しみだよ。
2.6Bって話だけど、実際にはこうだよね:
専用の17Bの長尺ビデオ用リファイナーが、ベースとなる長尺ロールアウトの上にテクスチャ、モーション、後半の品質を向上させる
要約:
720p、1分間のビデオ生成、6自由度のカメラ制御
nlが言った通り、
モデルはここにある:https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7... (https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_720p)
READMEには「研究目的のみ」と書かれているね。
コードライセンスはApache 2.0。
モデルライセンス(nvidia open...)にはこうある:
モデルは商用利用可能。
派生モデルを作成・配布することは自由。
(いつものことだけど、モデルの出力は制限なし、かつ人間による創作物がなければ著作権も保護されないよ)