論文解説 10 min read

AdaCodecがVideo MLLMの動画処理を革新!予測型視覚コードで効率と精度を両立

AdaCodecはVideo MLLMが抱える時間的冗長性の課題を解決し、処理効率と精度を同時に向上させます。予測型視覚コードにより、不必要なフレームエンコードを削減し、推論速度を大幅に改善する革新的な技術を解説します。

AI Frontier 編集部 によって編集・公開

近年、大規模言語モデル(LLM)の発展は目覚ましく、テキストだけでなく画像や動画といった多様なモーダル(様式)を扱うマルチモーダル大規模言語モデル(MLLM)へと進化しています。特に動画を理解し、対話するVideo MLLMは、防犯カメラの映像解析、自動運転、コンテンツ生成など、幅広い分野での応用が期待されています。

しかし、現在のVideo MLLMには大きな課題があります。それは、動画の処理効率です。動画は連続するフレームで構成されており、隣接するフレーム間には多くの共通するオブジェクト、背景、レイアウトといった「時間的冗長性」が存在します。既存の多くのVideo MLLMは、動画からサンプリングされた各フレームを独立したRGB画像としてエンコード(符号化)します。これにより、すでに前のフレームに存在する内容がビジュアルトークンとして繰り返しエンコードされ、計算資源の無駄遣いや処理速度の低下を招いていました。この非効率性が、Video MLLMのリアルタイム処理能力や大規模データへの適用を妨げる要因となっていたのです。

この研究の新規性

この論文で提案されている「AdaCodec(アダコーデック)」は、このVideo MLLMにおける時間的冗長性の課題に対し、根本的な解決策を提示しています。AdaCodecの最も新規性のある点は、動画データに対して「予測型視覚コード(predictive visual code)」という新しいインターフェースを導入したことです。

従来のVideo MLLMが各フレームを独立した静止画として扱うのに対し、AdaCodecは動画のフレームを時間的な連続性の中で捉え、必要に応じて最適な形で情報をエンコードします。具体的には、前のフレームの文脈から現在のシーンをうまく予測できない場合にのみ、完全な参照フレーム(reference frame)としてすべてのビジュアルトークンを送信します。それ以外の場合は、フレーム間の「変化量」をコンパクトな形式で表現する「P-トークン(P-tokens)」を送信するのです。これは、動画圧縮技術におけるIフレーム(参照フレーム)とPフレーム(差分フレーム)の概念に似ており、動画 MLLMの処理において、情報の冗長性を大幅に削減することを可能にしました。

このアプローチにより、モデルは常に最小限の視覚情報で動画を理解できるようになり、既存手法と比較して同等の精度を維持しながら、はるかに少ない計算資源と時間で処理を実行できる点がブレイクスルーと言えます。

技術的な核心

AdaCodecの技術的な核心は、この「予測型視覚コード」の具体的な実装方法にあります。

AdaCodecは、まず入力される動画フレームに対して、そのフレームが前のフレームの文脈からどれだけ予測しにくいかを測る「条件付き予測コスト(conditional predictive cost)」を評価します。このコストが高い場合、つまり現在のフレームの内容が前のフレームから大きく変化している、あるいは予測が難しいと判断された場合にのみ、そのフレームを完全な情報を持つ「参照フレーム」としてエンコードし、フルビジュアルトークンを割り当てます。この参照フレームは、後続のフレームを予測するための基準となります。

一方、条件付き予測コストが低い場合、すなわち現在のフレームが前のフレームから比較的変化が少ない、または予測可能であると判断された場合には、フルビジュアルトークンを使う代わりに、「P-トークン」と呼ばれるコンパクトな形式でフレーム間の変化量をエンコードします。このP-トークンには、フレーム間の「動き」の表現や、予測モデルが捉えきれなかった「予測残差(prediction residuals)」といった情報が含まれます。これにより、モデルは参照フレームとP-トークンを組み合わせることで、動画全体の意味内容を効率的に再構築できるわけです。

この仕組みは、一般的なTransformer(変換器)ベースのモデルにおける注意機構(attention mechanism)や、動的なプロンプト調整の考え方と類似しています。AdaCodecは、どの情報が重要で、どの情報が冗長であるかを動的に判断し、それに応じて異なる粒度のビジュアルトークンを生成することで、情報のボトルネックを解消し、モデルの処理効率を飛躍的に向上させていると考えられます。

実験結果と評価

AdaCodecは、その効果を複数のベンチマークで定量的に示しています。アブストラクトによると、Qwen3-VL-8Bという既存の強力なVideo MLLMをベースラインとし、AdaCodecを適用した場合の比較が行われました。

  1. 同等のトークン予算での性能向上: AdaCodecは、ベースラインモデルと同等のビジュアルトークン予算を用いた場合、テストされた全11ベンチマークにおいてベースラインの性能を上回る結果を示しました。これは、AdaCodecがトークンの利用効率を高めることで、同じ情報量でもより高い理解度を達成できることを意味します。
  2. 大幅なトークン削減での性能維持・向上: 特に注目すべきは、ビジュアルトークン予算を1/7にまで削減(224kトークンのベースラインに対し、わずか32kトークン)した条件下でも、AdaCodecがすべてのロングビデオベンチマークでベースラインの性能を凌駕した点です。これは、長時間の動画を扱う際に、AdaCodecが圧倒的な効率を発揮することを示唆しています。
  3. 推論速度の劇的改善: 汎用的な5つのビデオベンチマークにおいて、AdaCodecは平均スコアを向上させただけでなく、「time-to-first-token(最初のトークン生成までの時間)」を9.26秒から1.62秒へと大幅に短縮しました。これは約82%の応答速度改善に相当し、ユーザー体験の向上やリアルタイムアプリケーションへの適用可能性を大きく広げる成果です。

これらの結果は、AdaCodecが単に効率を高めるだけでなく、限られたリソース下でも高い精度を維持できる、非常に実用的なアプローチであることを明確に示しています。

実用への示唆

AdaCodecの登場は、Video MLLMの実用化において非常に大きな意味を持ちます。技術者やエンジニアの皆様にとって、以下のような具体的な示唆が考えられます。

  • リアルタイムアプリケーションの可能性: time-to-first-tokenの大幅な短縮は、ライブ映像の解析、ビデオ会議でのリアルタイム要約、監視システムでの異常検知など、迅速な応答が求められるアプリケーションの開発を現実のものにします。
  • エッジデバイスでのデプロイメント: トークン予算の大幅な削減は、計算リソースが限られるスマートフォンや組み込みデバイスといったエッジ環境でも、高性能なVideo MLLMを展開できる可能性を開きます。これにより、AI機能をより多くの場所で利用できるようになります。
  • コスト削減と持続可能性: クラウド上での大規模なVideo MLLMの運用コストは膨大です。AdaCodecのような効率的なエンコード方式は、必要な計算資源を削減し、それに伴う電力消費や環境負荷の低減にも貢献します。
  • 長尺動画処理の改善: 長時間の動画を扱う際の性能向上が示されたことは、映画、ドラマ、Webセミナーなどのコンテンツ解析、アーカイブのインデックス作成といった分野での応用が期待されます。
  • 新しいモデルアーキテクチャの指針: AdaCodecの成功は、今後のVideo MLLMやその他のシーケンスデータ処理モデルにおいて、データの冗長性を動的に管理する「予測的」なアプローチが有効であることを示しています。この設計思想は、様々なドメインのモデル開発に応用できるかもしれません。

まとめ

AdaCodecは、Video MLLMが抱える時間的冗長性という根本的な課題に対し、「予測型視覚コード」という革新的な解決策を提示しました。このアプローチにより、モデルは必要な情報量を見極め、参照フレームと変化量を示すP-トークンを賢く使い分けることで、効率と精度の両面で顕著な改善を達成しています。特に、大幅なトークン削減下での性能維持・向上と、推論速度の劇的な改善は、Video MLLMの実用化を大きく加速させるでしょう。今後、AdaCodecのような効率的な視覚コード技術が、多様なVideo MLLMアプリケーションの普及に貢献していくことが期待されます。

元論文

関連書籍・学習リソース


※ 本記事には Amazon アソシエイト・楽天アフィリエイト・A8.net 等のアフィリエイト広告が含まれる場合があります。リンクから商品・サービスが購入された場合、紹介料を受け取ることがあります。

Continue reading

全記事
Archive Home