ディスカッション (11件)
2021年製のMacBookを使用し、Gemma4-31Bモデルを駆使して1年分の動画データをローカル環境でインデックス化するという実験的試みです。システムメモリを補うために50GBのスワップ領域を活用するという、かなり攻めた構成での挑戦となります。
自分も2015年型のThinkpadで似たようなことをするためにGemmaを動かしたよ。幸いメモリを増設できたから良かったけど、そうじゃなかったらかなりきつい作業になってたね。正直に言うと、llama.cppを動かしている間はファンの音がフル回転だったよ。でも何とか動いたし、無事にやり遂げられた。
生成AIによる動画は、まともな旅行ブランドには不要
Airbnbホストの大多数がその意見に同意するとは思えないけどな。
TripAdvisorなら破滅もの
偽のリスティングで稼いでいるAirbnbホストがどうやって生き残ってるのか、本当に謎だ。
スキルは ~/.claude/skills/video-index/ にあるよ。似たようなこと(個人のアーカイブのインデックス化、ローカルモデルでのアーカイブ作業、編集ツールを操作するエージェント作成など)に取り組んでいるなら、情報交換したいね。
Claudeがこの投稿を書いた時、ホームフォルダを公開していない限り、共有するURLを間違えているかもしれないよ。スキルファイルを共有してくれる?
記事を書いてくれてありがとう!自分もパワフルなM5 Proを使っているから、ローカルモデル(特にGemma4やQwen3.6)を活用する方法をずっと探してたんだ。これは素晴らしい取り組みだね。LLMはバッチ処理が得意だから、写真や動画を並列でインデックス化してもパフォーマンスへの影響がないのが特にいい。
2つ質問がある。
-
検索インデックスは何を使っているのか?
-
「description.md」の例に「faces -> cluster_id」とあるけど、これはDavinci Resolveの顔認識インデックスから来ているのか?写真コレクションでは顔+名前や場所の情報が重要なんだけど、一般的なLLMだとそのあたりをうまく扱えないことが多いんだよね。
アップデート:急ぎでリポジトリを作成した - https://github.com/Simbastack-hq/framedex (MITライセンス)
汎用化したばかりで十分なテストはできていないけど、今後ちゃんと整理してアップデートしていくつもり。
今後の大きな目標が2つある。
-
このインデックスとClaudeの力を活用して、Davinci Resolveでの動画編集を高速化すること(コンテンツのインデックスが揃ったからね)
-
今は動画で試しているけど、カメラで撮り溜めた数千枚の静止画にも適用したい。整理が必要だから、そのあたりも取り組んでいく予定。
個人的には、B2CのAIアプリは、パーソナライズされたコンテキストを構築するのが難しいという構造的な壁があると思ってる。
もし高性能なローカルモデルが、ボトムアップでコンテキストの収集やタグ付けなどを大規模に実行できるようになったら、状況を一変させる可能性はあるよね。
[フラグ済み]
これはimmichに追加されたら最高な機能だね。
なぜそこまでスワップが発生するのかちょっと疑問だな。メモリ帯域幅を酷使するし、SSDの寿命をかなり縮めることになるからね。Gemma 4 31Bの4-bit量子化モデルなら約19 GiB [1]程度で、28.4 GiBもいかないはず。日常的に画像を読み込ませているわけではないなら、コンテキストに展開しても10 GiBも必要ないと思うんだけど。
アクティビティモニタを見ると、Electronアプリが山ほど動いていて、さらにモデルを読み込んだHandyとClaude Code用の仮想マシンまで動いているみたいだから、それがスワップの主原因だと思う。ラップトップがスラッシング(動作が極端に重くなる現象)を起こしているなら、それらのアプリは使い物にならなくなっているはずだよね。
[1] https://huggingface.co/mlx-community/gemma-4-31b-it-4bit