ディスカッション (11件)
このトピックは、OCR(光学文字認識)の新たな地平を切り拓く技術「One-shot long-horizon parsing」に関するものです。従来の手法では困難だった長文や複雑なレイアウトの解析を、わずか一度の推論(One-shot)で高精度に処理できる可能性を示唆しています。詳細な論文や実装モデルについては今後の進展に期待が高まっています。
すごく興味深い。自分の理解だと、この研究チームはAIが長いドキュメントを読み込む際にメモリを食いつぶす問題を、巧みなアーキテクチャのハックで解決したみたいだね。
普通、AIが100ページのPDFを文字起こしする時、取り込んだすべての単語を記憶しようとする。この短期記憶(KVキャッシュ)は線形(O(N))で増え続けるから、VRAMが足りなくなってクラッシュしたり、制限がかかったりするんだ。これを避けるために、開発者はPDFをページごとに分割して、一つずつ処理して、後からテキストを繋ぎ合わせるような面倒なコードを書く羽目になる。
Unlimited OCRは、Reference Sliding Window Attention (R-SWA) を使って、AIの注意力を二つのパスに分割しているんだ。
Global Reference:元のドキュメント画像を完全に保持し続けることで、AIが文脈を見失わないようにする。
Local Generation:AI自身の出力したテキストの記憶は、直近の128語のような狭いウィンドウ内に限定し、それ以外は安全に忘れる。
ローカルAIにとってすごく面白い技術だし、コミュニティがこれを使ってどんなものを作ったり拡張したりするのか楽しみで仕方ないよ!
「Deepseek-OCR、Deepseek-OCR-2、PaddleOCRの素晴らしいモデルとアイデアに感謝します」
粋だね。
Reductoってどうなったんだろ?12〜15ヶ月前はすごく期待されていたのに。
AIを使ってOCRを試しても、いつも勝手に変な生成物(ハルシネーション)が混じっちゃって、実用には程遠いんだよね。これも同じ問題を抱えてるのかな?
単純な例だと、他の言語の単語が自動的に英語に翻訳されちゃったりして、台無しになるんだよ。
最近、ジャズのセッションで「Real Book」の束を持ち歩かなくて済むように、譜面用にタブレットを買ったんだ。スマホカメラでスキャンした画像はそこそこ見れるけど、サイズは固定だしノイズも多い。それにBbやEb楽器用にその場で移調できたら最高なんだけど、スキャンデータじゃ無理だよね。
光学音楽認識(OMR)の現状を調べてみたけど、音楽分野はどこを見てもAIにとって未開拓地だっていう結論に至ったよ。OMRはかなりひどいし、AIの音楽理論に対する理解もひどい(正確には、実際の楽譜を見て理解すること)。LLMは理論的概念のテキスト説明ならそれなりにこなせるけどね。
問題は、ミュージシャンが読んでいる紙の楽譜の情報をデジタル化する優れたフォーマットがまだないことだと思う。音楽記譜法はかなりリッチだから。MIDIは再生やパフォーマンスに必要な要素を捉えるために作られたものだから、音楽的な理解に必要な情報が全部は入っていない。MusicXMLが一番近いかもしれないけど、楽譜画像や音源とMusicXMLを紐づけるような大規模なトレーニングデータセットが存在しない。たぶんMusicXMLには音楽を「浄書」するのに十分な情報がないからだろうね。MuseScoreのようなツールは、MusicXMLにはエンコードできない大量のレイアウト情報を管理しなきゃいけない。LilypondフォーマットはMusicXMLよりは詳細でスコア作成者に役立つ情報を含んでいるけど、楽譜をLilypondで書く人はあまりいないしね。(余談だけど、ジャズフォントの現状を見るとLilypondはちょっと萎えるよ。ジャズの文脈で「本格的な」スコアを見るのは嫌いなんだ)
ちょっと話が逸れたけど、OCRが少しずつ進歩しているのを見るたびに、OMRがどれほどひどい状態か思い出して切なくなるよ。
論文はここにあるよ: https://arxiv.org/abs/2606.23050
(余談だけど、自分も読んだ本の引用のためにローカルで小さなRAGを組んでOCRをしていて、入力チャンクを分割してる。RAM節約のためだけだけど、この自然なアプローチがストリーミングモデルでも使えるのは面白いね)
ちなみに「Unlimited OCR Works」は『Fate/stay night』のネタだね。元の「Unlimited Blade Works」は、他人が作った武器をコピーすること自体が前提となっている魔法だから。
他のあらゆるOCRツールを圧倒していたっぽい「infinity parser 2」と比べてどうなんだろう(https://huggingface.co/datasets/allenai/olmOCR-bench )。まあ、OCRには単一の勝者と言えるベンチマークがないし、これ自体まだどこにも載っていないから公平な比較は難しいけどね。
Mistralがさっきリリースしたものより有望そう(偶然だって?まさかそんなわけないだろ)。
このアプローチ、画像生成にも応用できそうじゃない?(組み合わせ次第で)。画像を読み込んで、IllustratorやInkscape(あるいはただのSVG)で描画を開始して、後から漏れた部分を埋めるみたいな感じで。
世間知らずだと思われそうだけど、企業が本当に優れたソフトウェアをオープンソースにする本当の理由って何なんだろう?
BaiduとかGoogleなら、競合他社が真似できないような価値を引き出すために、独占してもいいはずじゃないの?