VLMの推論を高速化！視覚トークンを「削除」せず「再ルーティング」するRerouteの仕組み

Vision-Language Models (VLM、視覚言語モデル)は、画像とテキストを連携させることで、画像に関する質問応答(VQA)や画像キャプション生成など、多岐にわたるタスクで目覚ましい性能を発揮しています。しかし、その高性能と引き換えに、デプロイメント時の計算コストが大きな課題となっています。特に、画像を数百から数千もの「視覚トークン」に分解して処理するため、Transformer(変換器)のデコーダにおけるアテンション計算量と、KV (Key-Value) キャッシュメモリの消費が膨大になり、推論速度の低下や高コスト化を招いています。リアルタイム性が求められるアプリケーションや、リソースが限られたエッジデバイスでの展開において、この課題は実用上の大きな障壁となっています。

この研究の新規性

既存の視覚トークン削減手法は、主に「rank-and-remove (評価して削除)」というパラダイムに従っています。これは、各トークンの重要度を評価し、そのうちコンパクトなサブセットのみを残し、残りのトークンは永久に破棄するというアプローチです。この手法は計算コストの削減に寄与する一方で、重大な脆弱性を抱えています。

論文著者らは、この「不可逆な削除」がVLMの性能、特に画像内の特定領域を指し示す「グラウンディング」を必要とするクエリにおいて、脆いことを指摘しています。デコーダが深い層に進むにつれて、トークンの重要度は変化する可能性があります。あるステージで重要度が低いと判断され削除されたトークンが、後続の層では突然関連性を持ち、モデルの意思決定に不可欠となるケースがあるのです。

本研究で提案される「Reroute (再ルーティング)」は、この問題に対する革新的な解決策を提供します。Rerouteは、トークンの「削除」を「回復可能なルーティング」に置き換えることで、既存手法の計算効率向上メリットを維持しつつ、性能劣化のリスクを低減します。重要度が低いと判断されたトークンを完全に破棄せず、後続の層で再評価される機会を与える点が、既存手法との最も大きな違いであり、この研究のブレイクスルーと言えます。

技術的な核心

Rerouteは、既存のVLMに容易に組み込める「訓練不要」のプラグインとして設計されています。その技術的な核心は、視覚トークンの処理を複数のルーティングステージに分割し、各ステージでトークンの重要度に応じて異なるパスを通す点にあります。

具体的には、Rerouteは以下のメカニズムで動作します。

ステージごとのトークン評価: 各ルーティングステージにおいて、既存の（例えばアテンションスコアに基づく）ランキングルールを利用して、入力された視覚トークン群の重要度が評価されます。
選択されたトークン: 重要度が高いと判断された「選択されたトークン」は、通常通りデコーダブロックを通過し、アテンション計算に参加します。これは既存のVLMの処理フローと同様です。
後回しにされたトークン: 一方、重要度が低いと判断された「後回しにされたトークン (deferred tokens)」は、そのステージでのデコーダブロックをバイパスし、アテンション計算にも参加しません。重要なのは、これらのトークンが完全に破棄されるのではなく、次のルーティング決定の段階で再び「候補プール」に戻される点です。

このメカニズムにより、トークンの重要度がデコーダの層によってダイナミックに変化する可能性に対応できます。初期段階で低重要度とされたトークンが、深い層に進むにつれて文脈的な関連性が高まり、再評価されて処理に組み込まれる機会が得られるのです。Rerouteは既存の削減手法が持つ理論的なTFLOPS (浮動小数点演算回数) やKVキャッシュの予算クラスを維持するように設計されており、計算効率のメリットを損なうことなく、グラウンディングなどの性能を向上させることができます。

実験結果と評価

本研究では、提案されたRerouteがLLaVA-1.5とQwenといった人気のあるVLMバックボーンに適用され、FastV、PDrop、Nüwaなどの既存の視覚トークン削減手法のバリアントと比較評価されました。

グラウンディング性能の向上: アブストラクトによると、Rerouteは「積極的なトークン削減 (aggressive token reduction)」を行った場合でも、グラウンディング性能を顕著に向上させることが示されています。これは、既存の削除型アプローチが抱えていた、後から重要になるトークンを誤って破棄してしまう問題をRerouteが効果的に解決していることを示唆します。VLMが画像内の特定のオブジェクトや領域に正確に注目し、それに関連する情報を提供する能力が高まるということです。
一般的なVQA性能の維持: グラウンディング性能の向上と同時に、一般的なVQA (Visual Question Answering) タスクにおける性能も維持されることが確認されました。これは、Rerouteが全体の推論精度を損なうことなく、特定の重要な機能（グラウンディング）を強化できることを意味し、効率化と性能のバランスが取れていることを裏付けています。

これらの結果は、視覚トークンの削減を不可逆なプルーニングとしてだけでなく、「回復可能なルーティング」として捉えることの有効性を示唆しています。

実用への示唆

VLMの推論コスト削減は、今日のAI技術の進化において非常に重要なテーマです。Rerouteのような手法は、以下のような実用的な示唆をもたらします。

既存システムの高速化: Rerouteは訓練不要のプラグインとして既存のVLMに容易に導入できるため、すでに稼働しているVLMベースのアプリケーションの推論速度を向上させたり、必要な計算リソースを削減したりすることが可能になります。これにより、リアルタイム対話システムや、大規模な画像・動画解析サービスにおけるユーザーエクスペリエンスの向上が期待できます。
グラウンディング性能の保証: 特に、画像内の特定領域に関する詳細な質問応答や、オブジェクトの正確な位置特定を必要とするアプリケーション（例: 医療画像診断支援、製造ラインの品質管理、自動運転における環境認識など）において、性能劣化なく効率化を進められる点は非常に大きなメリットです。既存の削減手法では、グラウンディング能力が損なわれるリスクがありましたが、Rerouteはそのリスクを低減します。
エッジデバイスでのVLM展開: 計算リソースが限られるスマートフォンや組み込みシステムなどのエッジデバイスでVLMを展開する際の障壁を低減する可能性も秘めています。より少ないメモリと計算量で高品質なVLM機能を提供できるようになれば、新たなユースケースが生まれるでしょう。
トークン削減技術のパラダイムシフト: 本研究は、今後のVLMにおけるトークン削減技術の方向性として、「不可逆なプルーニング」から「回復可能なルーティング」へのパラダイムシフトを促すものです。これにより、VLMの設計と最適化に関する新たな研究の道が開かれると予想されます。

まとめ

本記事では、VLMの推論コスト削減という重要な課題に対し、「Reroute」という新たなアプローチを提案する論文を紹介しました。

既存のトークン削減手法が、デコーダの深い層で重要度が変化する可能性のあるトークンを不可逆的に削除してしまう脆弱性を持つ一方で、Rerouteはトークンを完全に削除せず、重要度に応じて「回復可能なルーティング」を行うことで、この課題を解決します。具体的には、重要度が低いトークンも完全に破棄せず、後続の層で再評価の機会を与えることで、特にグラウンディング性能を大きく改善しつつ、一般的なVQA性能も維持できることが実験で示されました。

この研究は、VLMの効率化において、単純な削除ではなく、動的なルーティングの重要性を示唆するものであり、今後のVLM開発における重要な指針となるでしょう。

元論文

タイトル: Reroute, Don’t Remove: Recoverable Visual Token Routing for Vision-Language Models
著者: (不明)
arXiv ID: 2606.12412

※ 本記事には Amazon アソシエイト・楽天アフィリエイト・A8.net 等のアフィリエイト広告が含まれる場合があります。リンクから商品・サービスが購入された場合、紹介料を受け取ることがあります。

VLMの推論を高速化！視覚トークンを「削除」せず「再ルーティング」するRerouteの仕組み

この研究の新規性

技術的な核心

実験結果と評価

実用への示唆

まとめ

元論文

$π\mathbf{R}^2$が実現する高反応ロボット操作：フローポリシーのリアルタイム課題を解決

「バトンタッチ」で精度向上！軌道リレー型オンポリシー蒸留「Relay-OPD」がLLMの学習効率と堅牢性を高める

オンポリシー拡散蒸留でCFGの課題を解決するPDM：Negative Branch Asymmetry克服で堅牢な知識転移を実現