HN201

TIPSv2登場：パッチとテキストのアライメント強化でビジョン・言語事前学習を次のステージへ

TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment

gmays・3か月前

議論

2件

0：gmaysスレ主▲203か月前

TIPSv2は、画像パッチとテキストの整合性を大幅に高めることで、従来のビジョン・言語事前学習モデルの精度を一段上のレベルへと引き上げる手法です。マルチモーダルAI開発の現場で大きなインパクトを与える技術として注目されています。

1：jiggawatts3か月前

彼らのオンラインデモを試してみたんだけど、暗い森の前で黒いウェアを着たスノーボーダーっていう、なかなか難易度の高い写真で検証してみたんだ。コントラストが低いから、黒いヘルメットと背後の木々の影が判別しにくい状況なんだけどね。

Dinov3は見事にセグメンテーションできてて、人間がやるのと遜色ないレベルだったよ。一方でTIPSv2は頭が切り落とされちゃって、森と同じPCA値でマークされてた。あと、手前の雪に関しても、視覚的（かつ物理的）には繋がってるのに、TIPSv2は別々のPCA値に分割しちゃってたね。