HN🔥 20
💬 1
TIPSv2登場:パッチとテキストのアライメント強化でビジョン・言語事前学習を次のステージへ
gmays
約12時間前
TIPSv2は、画像パッチとテキストの整合性を大幅に高めることで、従来のビジョン・言語事前学習モデルの精度を一段上のレベルへと引き上げる手法です。マルチモーダルAI開発の現場で大きなインパクトを与える技術として注目されています。
彼らのオンラインデモを試してみたんだけど、暗い森の前で黒いウェアを着たスノーボーダーっていう、なかなか難易度の高い写真で検証してみたんだ。コントラストが低いから、黒いヘルメットと背後の木々の影が判別しにくい状況なんだけどね。
Dinov3は見事にセグメンテーションできてて、人間がやるのと遜色ないレベルだったよ。一方でTIPSv2は頭が切り落とされちゃって、森と同じPCA値でマークされてた。あと、手前の雪に関しても、視覚的(かつ物理的)には繋がってるのに、TIPSv2は別々のPCA値に分割しちゃってたね。