拡散モデルの品質向上に不可欠な外れ値トークン制御！Diffusion Transformers (DiTs) における課題と新手法 DSR

導入

近年、AIによる画像生成技術は目覚ましい発展を遂げています。特に、高品質な画像を生成できる「拡散モデル（Diffusion Models）」は、その表現力の高さから大きな注目を集めています。この拡散モデルに、Transformer（変換器）アーキテクチャを適用したものが「Diffusion Transformers（DiTs）」であり、生成品質と効率の両面でさらなる進化を遂げています。

しかし、DiTsのような先進的なモデルでも、生成される画像の品質を損ねる特定の課題が存在します。その一つが、本論文で深く掘り下げられている「外れ値トークン（outlier tokens）」の問題です。これまでの研究では、Vision Transformer（ViT）において、ごく少数のトークンが異常に高いノルム（大きさと方向を示すベクトル値）を持ち、アテンション（注意機構）を不均衡に引き付けてしまう現象が報告されていました。これらのトークンは、局所的な情報量が限られているにも関わらず、モデル全体の処理に過度な影響を与え、結果として画像の品質低下やアーティファクト（不自然な要素）の原因となることが指摘されていました。

本論文は、この外れ値トークンがDiTのような生成モデルにおいてどのように作用し、いかに解決すべきかという問いに答えるものです。生成AIの品質向上、安定性の確保、そしてアーティファクトの削減は、実用化と社会実装において極めて重要な課題であり、この研究は高性能な生成モデルを開発する上で不可欠な知見を提供します。

この研究の新規性

本研究の最大の新規性は、DiTにおける外れ値トークン問題の発生源と、その影響を体系的に解明した点にあります。従来のViTに関する知見を発展させ、現代のRepresentation Autoencoder（RAE）-DiTパイプラインにおいて、この外れ値トークン問題が、入力画像を潜在表現に変換するViTエンコーダと、その潜在表現から画像を生成するDiTデノイザーの両方で発生することを発見しました。

さらに、著者らは、単に高ノルムのトークンをマスク（無視）するだけでは生成品質が改善しないことを示しました。この結果は、問題が単に少数の極端な値に起因するのではなく、「破損した局所パッチセマンティクス（corrupted local patch semantics）」、つまり画像パッチの持つ意味情報自体が損なわれていることに関連している、という新たな示唆を与えています。

この本質的な問題に対処するため、本論文では「Dual-Stage Registers（DSR）」という、レジスタ（register）ベースの新しい介入手法を提案しています。DSRは、エンコーダとデノイザーの両方のコンポーネントに対応しており、特にデノイザー向けに考案された「拡散レジスタ（diffusion registers）」は、拡散過程というDiT特有のコンテキストに合わせた独自のアプローチです。これにより、DiTモデルのロバスト性（堅牢性）と生成品質を大幅に向上させることが期待されます。

技術的な核心

本研究の技術的な核心は、DiTにおける外れ値トークンの発生メカニズムの解明と、それを効果的に制御するための「Dual-Stage Registers（DSR）」にあります。

外れ値トークンの発生源と問題の性質

著者らは、現代のRAE-DiTパイプラインにおいて、外れ値トークンが主に以下の2つの段階で発生することを発見しました。

ViTエンコーダでの発生: RAE-DiTパイプラインは通常、事前学習済みのViTエンコーダ（視覚変換器の符号器）を使用して、入力画像をより低次元の潜在表現に変換します。このエンコーダが、特定の画像パッチから外れ値となるような異常な潜在表現（トークン）を生成してしまうことがあります。
DiTデノイザーでの発生: DiTモデル自体も、ノイズ除去（デノイズ）の過程で、特にTransformerの中間層において内部的に外れ値トークンを生成する傾向があることが判明しました。これは、ノイズの多い入力から画像を再構築する複雑なタスクにおいて、モデルが一時的に不安定な表現を作り出すためと考えられます。

さらに重要なのは、問題の性質に関する著者らの洞察です。単にノルムが高いトークンを単純に削除したりマスクしたりしても、生成品質が改善しないという実験結果は、外れ値トークンが単なる数値的な異常ではなく、そのトークンが表す画像パッチの局所的な意味情報（セマンティクス）が「破損」していることに起因している可能性を示唆しています。つまり、モデルが誤った、あるいは矛盾した情報をエンコードしてしまい、それが外れ値として現れている、というより深い問題が背景にあると推察されます。

Dual-Stage Registers (DSR) の導入

DSRは、この外れ値トークン問題を解決するために提案された、Transformerモデルの「レジスタ（register）」メカニズムを活用した介入手法です。レジスタとは、Transformerのアーキテクチャに埋め込まれる追加の特別なトークンであり、モデルの内部状態を補助したり、特定のグローバルな情報を保持したりするために使われます。DSRは、エンコーダとデノイザーの両方で、このレジスタを戦略的に導入することで外れ値トークンの影響を抑制します。

エンコーダ側（ViTエンコーダ）の介入:
- 学習済みレジスタ（trained registers）: 事前学習段階で、通常の画像トークンに加えて、少数のレジスタトークンを導入し、これらも学習させます。これらのレジスタは、外れ値になりやすい情報を吸収したり、モデルの全体的な表現の安定化に寄与したりするように学習されます。これにより、画像トークンが過度に高いノルムを持つことを抑制し、表現の「暴走」を防ぎます。
- 再帰的テスト時レジスタ（recursive test-time registers）: 学習済みレジスタが利用できない場合や、特定のテスト条件でより適応的な制御が必要な場合に用いられます。これは、テスト時において、モデルの中間層のアテンションメカニズムに動的に介入し、外れ値トークンの影響を緩和するメカニズムです。具体的には、外れ値の可能性のあるトークンに対して、レジスタが「注意を分散」させることで、その影響力を局所的に抑え込みます。
デノイザー側（DiT）の介入:
- 拡散レジスタ（diffusion registers）: DiTのノイズ除去という特殊なプロセスに特化したレジスタです。拡散モデルは、ノイズだらけの画像から段階的にノイズを除去して最終的な画像を生成します。この過程において、各デノイズステップで外れ値トークンが発生しやすいことが問題となります。拡散レジスタは、この拡散過程の各ステップで導入され、外れ値トークンの形成を抑制し、ノイズ除去の安定性を高めるように設計されます。これにより、ノイズレベルに応じた外れ値の発生を制御し、よりクリーンで一貫性のある画像生成に寄与します。

DSRは、これらのレジスタを通じて、外れ値トークンが引き起こす局所的なパッチセマンティクスの破損を緩和し、モデル全体のロバスト性と生成品質を高めることを目指します。

実験結果と評価

本研究では、提案されたDual-Stage Registers（DSR）の有効性を検証するために、ImageNetおよび大規模なテキスト-to-画像生成タスクにおいて広範な実験を実施しました。アブストラクトでは具体的な数値は示されていませんが、著者らはDSRによる介入が、これらのタスクにおいて一貫して外れ値によって引き起こされるアーティファクトを削減し、生成品質を向上させることを報告しています。

この結果は、外れ値トークンの制御が、より強力で高品質なDiTを構築するための重要な要素であることを強く示唆しています。特に、単なる高ノルムトークンのマスキングが効果がないという発見は、外れ値問題の本質がより深く、単なる表面的な処理では解決できないことを示しており、DSRのような戦略的な介入の必要性を裏付けています。

実用への示唆

本研究の成果は、Diffusion Transformers（DiTs）を用いた画像生成の分野において、非常に重要な実用的な示唆をもたらします。

まず、DiTを利用した様々な画像生成アプリケーションにおいて、生成される画像の品質と信頼性を大幅に向上させることが期待できます。例えば、高精細な画像が求められるデザイン支援ツール、仮想空間でのアセット生成、あるいは医療画像処理におけるデータ拡張など、幅広い分野でアーティファクトの少ない、よりリアルで一貫性のある画像を生成できるようになるでしょう。特に、人間の顔や細かいテクスチャなど、ディテールが重要となる部分での不自然さを減らすことは、ユーザー体験の向上に直結します。

次に、外れ値トークン問題は、Transformerベースのモデルに共通して見られる課題であるため、DSRのようなレジスタベースの介入手法は、DiT以外のTransformerモデル、例えば自然言語処理モデル、動画生成モデル、あるいは他のモダリティ（形式）を扱うモデルなど、様々な領域への応用可能性を秘めています。これは、Transformerモデル全般のロバスト性や安定性を向上させるための一般的なアプローチとして発展する可能性があります。

最後に、生成モデルの安定性向上は、プロダクトの信頼性向上に直結します。外れ値トークンによる不自然な生成は、ときに予期せぬ結果や、誤った情報を生み出す可能性もあります。DSRによってこれらの問題が抑制されることで、より制御可能で予測可能な生成AIシステムを構築できるようになり、実務家にとってはプロダクトへの導入におけるリスクを低減する重要な知見となるでしょう。

まとめ

本論文は、最先端の画像生成モデルであるDiffusion Transformers（DiTs）における「外れ値トークン」の問題に深く切り込んだ研究です。著者らは、この外れ値トークンが、ViTエンコーダとDiTデノイザーの両方で発生すること、そして単なる高ノルムトークンのマスキングでは解決できない、より本質的な「破損した局所パッチセマンティクス」に起因することを発見しました。

この課題に対処するため、本研究では「Dual-Stage Registers（DSR）」という、レジスタベースの新しい介入手法を提案しています。DSRは、エンコーダ向けの学習済みレジスタや再帰的テスト時レジスタ、そしてデノイザー向けの拡散レジスタといった独自のコンポーネントを通じて、外れ値トークンの影響を効果的に抑制します。

ImageNetや大規模なテキスト-to-画像生成タスクでの実験により、DSRが外れ値によるアーティファクトを一貫して削減し、生成品質を向上させることが示されました。この成果は、外れ値トークンの制御が、将来のより強力で信頼性の高いDiTを開発していく上で、極めて重要な鍵となることを明確に示しています。

元論文

タイトル: Taming Outlier Tokens in Diffusion Transformers
著者: (不明)
arXiv ID: 2605.05206

拡散モデルの品質向上に不可欠な外れ値トークン制御！Diffusion Transformers (DiTs) における課題と新手法 DSR

この研究の新規性

技術的な核心

実験結果と評価

実用への示唆

まとめ

元論文

関連書籍・学習リソース

最高の答えを引き出す生成AIプロンプトの技法

MoEの専門家を層横断で共有し、大規模言語モデルの効率を高める新アーキテクチャ「UniPool」

ActCamが実現するゼロショット動画生成：カメラと3Dモーションの自在な同時制御

Grokが5つの数学的不等式を発見: AIが拓く数理研究の新境地

この研究の新規性

技術的な核心

実験結果と評価

実用への示唆

まとめ

元論文

関連書籍・学習リソース

最高の答えを引き出す 生成AIプロンプトの技法

MoEの専門家を層横断で共有し、大規模言語モデルの効率を高める新アーキテクチャ「UniPool」

ActCamが実現するゼロショット動画生成：カメラと3Dモーションの自在な同時制御

Grokが5つの数学的不等式を発見: AIが拓く数理研究の新境地

最高の答えを引き出す生成AIプロンプトの技法