HN6818

「Claude-real-video」登場：どんなLLMでも動画を解析・視聴可能にする魔法のツール

Claude-real-video － any LLM can watch a video

cortexosmain・約22時間前

議論

11件

0：cortexosmainスレ主▲68約22時間前

動画をLLMに解析させる手法「Claude-real-video」が話題です。この仕組みを使えば、特定のモデルに依存することなく、お手持ちのLLMで動画コンテンツの視聴や分析が可能になります。動画解析の可能性を一気に広げる注目の技術です。

リンク先:https://github.com/HUANGCHIHHUNGLeo/claude-real-video

1：cortexosmain約22時間前

HNのみんな、こんにちは！これを作ったのは、既存のLLMが動画を「ちゃんと見ていない」ことにイライラしたからなんだ。Claudeは動画ファイルを読み込めないし、ChatGPTは文字起こしを読むだけ。Geminiは1fps固定でサンプリングするから、速いカットを見逃したり、静止したスライドを過剰に読み込んだりしちゃうよね。

claude-real-videoはURLやローカルファイルを読み込んで、こんなことをするよ：

シーンチェンジごとにフレームを抽出（固定間隔じゃないよ）＋最低限の密度を確保
スライディングウィンドウ式の画素差分アルゴリズムで重複排除（インタビューのカットバックみたいに、同じ構図が続く場合は送信しない）
音声を文字起こし（埋め込み字幕があれば優先、なければWhisperを使用）
オーディオ対応モデル向けにサウンドトラックを保持するオプションあり
LLMチャットにそのまま放り込めるきれいなMANIFEST.txtを生成

10分のプレゼン動画なら、600枚の固定フレームが5〜15枚の重要なキーフレームに凝縮される感じ。トークンを90%以上節約しつつ、理解度はアップするよ。

重複排除のアプローチ（v0.2.0）は、16x16のRGBサムネイルを使って、直近Nフレームとの画素差分をとる方式。videostilのpixelmatchから着想を得たけど、もっとシンプルで独立した設計になってる。

--reportを使えば、フレームが採用/除外された決定プロセスを差分率付きでHTML出力できるから、しきい値調整も視覚的にできるよ。

pip install claude-real-video && crv "https://youtube.com/watch?v=..." --report

MITライセンスで、純粋なPython + ffmpeg製。質問あったら何でも聞いて！

2：gvkhna約20時間前

いいじゃん！実は自分も似たようなのを作ったよ。ちなみに、モーショングラフィックスに関しては、LLMは特定の動きを推論するのが苦手だってことがわかった。単に何が起きているか、タイミングがどうなっているかを簡潔かつ正確に説明させる方がよっぽど上手くいったよ。

わりとマシだったのは、フレームをグリッド状に並べて、エージェントにその画像全体を見せる方法。驚くほど上手くいったけど、画像だけでは判断できない細かいディテールを見逃すことは多かったな。

他にもビジョンエンベディングや動きのヒートマップ、ぼかしを入れたりして動きを表現してみたけど、どれも決定打にはならなくて、結局はうまく理解してくれるまでテキストで詳細に説明する羽目になった。まだ正解は見つけられていないんだ。

3：ElijahLynn約20時間前

ちょうど昨日、まさに同じユースケースを考えていたところだよ！

バッテリー残量と温度の違いで充電速度がどう変わるか計測したかったんだけど、ビデオカメラで電圧表示を撮り続けて、バッテリー残量の増え方と、温度ガンでスマホの温度もあわせて記録しておけば、あとは全部自動でチャート化できるんじゃないかと思ってさ。

これが実現できれば、充電器のレビューがすごく楽になるよね。プラグを挿して動画を撮るだけで、あとはシステムに流し込むだけでいいんだから。

ぜひ試してみようかな！

4：fred123123約20時間前

動画の高速スクロールみたいな動きはどう処理してるの？

5：BeetleB約19時間前

これ、LLM関連の用途以外でもかなり役立ちそう。名前からLLM専用っぽいイメージが消えるようなリネームを提案するよ。

6：nxtfari約19時間前

これは本当に賢いね、素晴らしい。

7：bonoboTP約19時間前

「動画の行き先：ローカルマシンのまま」って書いてあるけど、Claudeを使うなら（このツールが抽出した）フレームは当然Anthropicに送信されるよね。

8：octember約19時間前

面白いアイデアだけど、キーフレームは動画そのものじゃないからね。動きやオブジェクトの永続性なんて、Claudeは静止画のセットから推論できないよ。でもデモとしてはいいね！

9：zitterbewegung約18時間前

いい感じだけど、Claudeという名前を冠しない名前に変えるべきじゃないかな。

10：fzysingularity約18時間前

Claudeで動画を見るにはかなり高くつくんじゃないかな。

GeminiかローカルのVLMを使えばもっとずっと効率的だよ。うちは動画理解にかなり時間を費やしてきたけど、Claudeを使うとトークンを浪費するだけになっちゃう。

このライブラリをチェックしてみて: https://vlm-run.github.io/mm/

モデルを入れ替えたり、動画のエンコード方法をいろいろ試したりできるよ (https://vlm-run.github.io/mm/encoders/#video)