ディスカッション (11件)
DeepSeek V4の技術解説ドキュメントがHugging Faceにて公開されました。モデルの詳細な仕様やアーキテクチャについては、こちらの公式PDFをご確認ください:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
この分野にどっぷり浸かってて熱心に取り組んでるけど、AIの進歩に追いつくのに必死でバーンアウトしそうな人向けのサポートグループが必要だよ。AIの進歩に追いつくためのAIが必要な段階を、とっくの昔に通り過ぎちゃった気がする。
派手なプレスリリースより先に開発者向けドキュメントが公開されるのって、なんかいいよね。
「最先端ラボはものすごい勢いで推論コストを補助金で賄ってる」っていうコメントをよく見かけるけど、v4 Proみたいな巨大モデルが100万トークン4ドルで提供されてる現状、どういう理屈なのか誰か説明してくれないかな。API価格は言うに及ばず、サブスクだけでも十分利益が出てるはずだよ。
追記:OpenRouterだと入力が100万トークンあたり1.74ドル、出力が3.48ドルだね。
真面目な話、OpenAIとかGoogleみたいな巨大企業が、どうしてこれの半分くらいのクオリティのドキュメントも書けないの??
https://api-docs.deepseek.com/guides/thinking_mode
余計な話は抜きで、自前のエージェントを作るのに必要な情報が簡潔にまとまってて最高。
この界隈における「オープンソース」の理想形だし、開発者向けドキュメントは超一流、価格は異常なほど安いのに最先端のモデル能力を備えてる。つまりこれは「ハッカーからハッカーへ」ってやつだね。最高!
あと、CUDAへの依存が一切ないのも注目すべき点。完全にHuaweiのチップで動いてる。言い換えれば、中国のテックエコシステムがAIスタックを完成させたってこと。好むと好まざるとにかかわらず、これは大ニュースだよ。独占が崩れることなんて、歓迎こそすれ文句を言う理由なんてないだろ?
「推論の全過程でビット単位のバッチ不変性と決定論的なカーネルを実装した」か。
かなりイケてるね。固定シードや温度パラメータ0で決定論的な挙動を保証したのは彼らが初めてじゃないかな。Googleも惜しいところまでいってたけど、確約はしてなかったはず。DeepSeekはルーツがしっかりしてる。厳密にはSOTAモデルじゃないかもしれないけど、他の誰も気にかけてないようなローレベルの最適化をやり込んでるよ。
トレーニング自体はNVIDIAで行われたみたいだけど、推論はHuaweiのチップで実行できるバージョンってことか。つまり、誤解でなければ、現状で中国独自の技術(に近いもの)で運用される最大かつ最強のモデルだね。パフォーマンスと安定性がどうなるか楽しみ。OpenRouterだと今のところ1.12秒、30tpsくらいだけど、まだ初日だしこれからだよね。
ちなみに、これが動いてるHuaweiのAscend 950は、2022年のNVIDIA H100とほぼ同等の性能ってことらしい。つまり、GPU戦争が激化してるってこと!
ここにはベンチマークやコーディング能力に関するコメントが多いけど、アクティブな研究現場での数学の問題解決能力について意見を言わせてほしい。
修士・博士レベルの確率・統計に関する新しい問題をいくつか持ってるんだけど、実現可能性にはばらつきがある。自分のテストスイートでは、まずその問題を(文脈として2〜6本くらいの論文を添えて)投げて、フォローアップで厳密な証明を求めるという手法をとってる。問題がかなり難しいから、定量的な評価は難しいんだけど、論文にできそうなアウトラインを作成するのにどれだけ役立つかを基準にしてるよ。
このモデルが出るまではGeminiがトップで、GPT-5が僅差で2位だった。他のモデル(Claudeでさえ)は全く歯が立たなかった。Geminiは難問に対して時折信じられないような洞察を見せる(関連手法についての鋭い推測は、研究において一番役に立つ)んだけど、どちらのモデルも一度のフォローアップで具体的な証明の概略を組み立てるのには苦戦してた。このDeepSeek V4 Proの「思考モード(Thinking Mode)」はここが驚くほど優れてる。最初の回答での洞察力はGeminiほどではないにせよ(GPT-5に近い感じ)、フォローアップでは劇的に良くなるし、証明も非常に印象的で、場合によってはほぼ完璧だったよ。
GeminiとDeepSeekの両方がトークンあたりのパフォーマンスでリードしてることを考えると、この手の問題への対応力にもそれが関係してるのかも。結局、限られた計算リソースの中でどれだけ深く掘り下げられるかって話なんだろうね。
ベンチマークの結果がどうであれ、オープンウェイトのモデルにとっては大きな飛躍だと思う。DeepSeekチームに拍手!
リリースノートに書いてあることが興味深いね。
「ハイエンドな計算リソースの容量制限により、Proモデルの現在のスループットは制限されています。Ascend 950が本格的に展開されれば、価格は大幅に下がると見込んでいます。」
https://api-docs.deepseek.com/zh-cn/news/news260424#api-%E8%AE%BF%E9%97%AE
客観的で詳細なベンチマーク結果は https://gertlabs.com にあるよ。
現時点での結論:今回のリリースで注目すべきはDeepSeek V4「Flash」モデル。安くて、効果的で、とにかく速い。
Proモデルの方は動作は遅いし、現時点ではコーディングの推論能力もそこまで優れてるわけじゃない。信頼性が低くてレート制限も厳しすぎるから、正直今のところ使い物にならないね。他のプロバイダーがホストし始めれば改善するはず。Flashの方は問題なく動いてるし、最近のモデルと比べてもエージェント的なワークフローなら十分に競争力がある。24時間後にツール使用やロングコンテキストを含めた総合スコアが更新されるから、またチェックしてみて。
中国の最先端AIラボの多くが、Opus 4.6に肉薄するスピードやツール使用能力、ロングコンテキスト対応を備えたモデルをリリースしてる。中国を筆頭に、AIレースではオープンウェイトが勝ってるね。ここ数週間のリリースラッシュは本当に狂ってる。
XiaomiのMimo V2.5 Pro(オープンウェイトじゃないけど)が、最近の中国系リリースの中では包括的なベンチマークで一番性能がいい。Kimi K2.6がオープンウェイトとしては一番面白いけど、DeepSeekはもうこの分野の絶対的なリーダーではないね。
最近の中国系リリースの面白い傾向は、エージェントとしての向上が著しいこと。初期状態の頭の良さはそこそこでも、ツールを使ってループで反復する能力で差を埋めてる。DeepSeek V4 Flashがまさにそうで、最初から賢いわけじゃないけど、セッションを重ねるうちに能力を発揮する感じ。