軽量4Bの強力なVLM「NuExtract3」登場!Markdown変換やOCR・構造化データ抽出がローカル環境で爆速に
※免責事項:私はこのオープンウェイトモデルを開発しているNumind社の社員です。 要約:画像やテキストをMarkdownに変換するモデルです! Qwen3.5-4Bをベースにした4BモデルをApache-2.0ライセンスでリリースしました。PDF、スクリーンショット、フォーム、表、領収書、請求書、複数ページにわたる文書など、複雑な文書から情報を抽出することを、オープンなモデルでより実用的にすることが目的です。 もし「NuMarkdown(https://huggingface.co/numind/NuMarkdown-8B-Thinking)」を使ったことがあるなら、これはその後継モデルにあたります! サインアップ不要で完全に無料のHugging Faceスペースを用意したので、ぜひ試してみてください:https://huggingface.co/spaces/numind/NuExtract3 主な用途: ・文書画像のMarkdown変換 ・ターゲットJSONテンプレートを使用した文書からの構造化データ抽出 ・表、フォーム、レイアウトが複雑なページの処理 ・テキストおよび視覚的な文書入力の両方に対応 ・文書抽出パイプラインのローカル/オープンウェイトな代替手段として活用 8xH100のノードで3日間トレーニングを行い、最大限のコンテキストを学習させたため、長い文書でも十分な性能を発揮します。Markdown変換については、並列処理による効率化のため、ページ単位での処理を推奨します。 充実したドキュメントに加え、Safetensors、GGUF、MLXの重みを提供しているため、セルフホストも非常に簡単です。VRAM 4GBから動作可能で、GPTQ、W8A8、FP8、Q4、Q6など複数の量子化版を用意しており、あらゆる環境で動かせるはずです。 検証は主にvLLM、SGLang、llama.cppで行いました。Ollama対応もできれば良いのですが、現在のチャットテンプレートエンジンがあまり好みではないため検討中です。 ブログやモデルカードはこちらからご確認ください: ・https://about.nuextract.ai/blog/nuextract-3-release ・https://huggingface.co/numind/NuExtract3 ・https://huggingface.co/collections/numind/nuextract3 現在このモデルに関する論文を執筆中で、受理され次第共有します。現時点では査読付きジャーナル・会議へ投稿中のため、Arxivには未掲載です。 何か質問があればできる限り回答します。コミュニティからのフィードバックを心よりお待ちしています。 興味があればDiscordにも参加してください! https://discord.com/invite/3tsEtJNCDe