ディスカッション (11件)
現在、画像生成AI界隈で話題の「Krea 2」について紹介します。このモデルは12B(120億)パラメータというサイズながら、オープンウェイトで提供されており、SOTA(State-of-the-Art)級の性能を誇る強力な画像生成モデルです。個人開発やローカル環境での活用が期待されます。
HNの皆さん、こんにちは。最新のテキスト・トゥ・イメージモデルのウェイトを公開したよ。学習方法についてかなり詳細な解説記事も書いたから読んでみて。レポートには誰にとっても興味深い内容があるはず。普段あまり語られない実際の学習プロセスやデータインフラについてもかなり突っ込んで書いたから、ここのユーザーには刺さるんじゃないかな。入り切らなかった情報もまだあるから、質問があれば何でも聞いてね!
採用ページに面白い項目があるよ。昔のMellanoxがどんな感じだったか知ってる人なら、刺さるかもしれない:https://jobs.ashbyhq.com/krea/ebe94024-eef6-4306-a019-10072ad0f4c9 :D
TurboはもうGGUF化されてるみたいだね:https://huggingface.co/Abiray/Krea-2-Turbo-GGUF
良いモデルだけど、Qwen VAEを使ってるのはちょっと残念だな。
Krea 2を試すのが楽しみ。Z-Image Turboを毎日使ってて、リアリズムとイラストの面でストックフォトのサブスクを解約できたよ。ところで、学習コストはどれくらいかかったのか聞いてもいい?
HNの皆さん、こんにちは。Kreaの共同創業者兼CTOのDiego Rodriguezです。ウェイトと、業界基準から見てもかなり「濃い」技術レポートを公開します。データキュレーション/キャプション、モデルアーキテクチャ、ポストトレーニング、RLパイプライン、プロンプト展開、スタイルリファレンス、そしてインフラについて詳細に記述しました。ウェイトに関しては、以下の2つをリリースします。
- Krea 2 Turbo: 高速推論のためにガイダンスとタイムステップの両方を蒸留したモデル。
- Krea 2 RAW: ハックやファインチューニングを前提としたモデル。
オープンLLMコミュニティが良い点は、モデルを異なるサイズや学習パイプラインの段階で公開していることだと思います。なので、私たちは学習途中と学習後の両方のチェックポイントをリリースすることにしました。画像・マルチメディア分野では珍しい試みなので、このリリースには自信を持っています。
Artificial Analysisのtext-to-imageベンチマーク(https://artificialanalysis.ai/image/leaderboard/text-to-image )では、Nano Bananaと同等の画質を達成しました。
個人や小規模ビジネス向けに寛容なライセンスも付与しています。
役立つリンク:
- OSSリリースの紹介ページ: https://www.krea.ai/krea-2-open-source
- Huggingfaceモデル: https://www.krea.ai/krea-2/huggingface
- GitHubリポジトリ: https://www.krea.ai/krea-2/github
- Reddit AMA: https://www.reddit.com/r/StableDiffusion/comments/1udnm0a/we_are_the_team_behind_krea_2_ask_us_anything/
- 技術レポート: https://www.krea.ai/blog/krea-2-technical-report
リリースを楽しんでください。ハッピー・ハッキング!
オープンウェイトモデルが増えるのは良いことだし、詳細な解説記事も本当に素晴らしい。スタイルを12個に絞り込むのではなく、多様なスタイルに対応できるモデルを作ろうとする「manifoldを広く保つ」アプローチも好きだね。
ただ、Nano Banana 2やImages 2.0のような高度な「イメージ・トゥ・イメージ」や「エージェント的な構成」モデルが台頭している中で、少し「過去の戦い」をしているような感覚もある。基本的なQwen 3 VLのcross環境で、そこまでのI2Iレベルに到達できるとは正直思えない。堅牢なI2Iは、編集、調整、キャラクターの整合性、そしてスタイル転送など、非常に重要なんだ。
そこを目指すのは簡単じゃないけど、画像モデルの次のフロンティアがそこにあるのは明らかだよね。Ideogramがそこに向かっている気がするけど、他のオープンウェイト空間ではまだ見ていないな。
サンプル画像が素晴らしいね。多様なOSSモデルが増えるのは常に大歓迎だよ。
誰か自転車に乗るペリカンを生成した人いる?LM StudioでKrea 2のモデルを試したけど、ロード時にエラーが出てしまった。(画像モデルだから自分のやり方が間違ってるのかもしれないけど。)
結果が出たね!8ステップで動くTurboモデルの速さを考えれば、本当に素晴らしいパフォーマンス。ローカル環境でこれを上回ったのはIdeogram 4だけだけど、あちらは(秒単位に対して分単位で)かなり遅いしね。
例の「モデルキラー(9つの尖った星、Rugen伯爵、過密なフラットアース)」にはやられたけど、全体としては自分のクラス以上の働きを見せてくれたよ。ローカルホストモデルの中では最高得点で、Ideogram 4に次いで15テスト中6つをパスしたんだ。
Kreaチーム、よくやった!
ローカルモデル比較用のGenAIリンク:
https://genai-showdown.specr.net/?models=fd,hd,kd,qi,f2d,zt,id4,k2