大規模言語モデルの「ワーキングメモリ」を解放し、効率的な潜在推論を実現する新手法RiM

大規模言語モデル(LLM)は、その驚異的なテキスト生成能力によって多くの分野に革命をもたらしましたが、より複雑な推論タスクにおいては、その能力をさらに引き出すための研究が活発に行われています。

現在、LLMの推論能力を向上させる一般的なアプローチの一つに、「Chain-of-Thought (CoT)」のような、最終的な解答に至るまでの中間的な思考ステップを明示的に生成させる手法があります。これにより、モデルはより複雑な問題を段階的に解決できるようになりますが、このアプローチにはいくつかの課題が存在します。

まず、中間思考ステップを自己回帰的に(つまり、一つ前のトークンに基づいて次のトークンを順次生成していく形で)生成するため、推論プロセスが遅くなり、計算コストが増大します。特にリアルタイムでの応答が求められるアプリケーションでは、このレイテンシは大きなボトルネックとなり得ます。

次に、この手法は、モデルの「内部的な計算」と「外部へのコミュニケーション(トークン生成)」を密接に結合させてしまいます。人間が問題を考えるとき、私たちはすべての思考を声に出したり書き出したりするわけではありません。頭の中で情報を一時的に保持し、操作する「ワーキングメモリ(作業記憶)」を使って、内部的に思考を進めることができます。この内部的な思考プロセスは、外部とのコミュニケーションとは区別されます。

この論文は、この人間のワーキングメモリの概念をLLMに導入することで、これらの課題を克服しようと試みています。つまり、中間思考の外部化を最小限に抑えつつ、モデルが内部的に推論を行う能力、「潜在推論(latent reasoning)」を効率的に引き出す新しい方法を提案しているのです。

この研究の新規性

この研究の最大の新規性は、大規模言語モデルの推論プロセスから自己回帰的な中間トークン生成を排除し、代わりに「メモリーブロック」という固定長の内部計算メカニズムを導入した点にあります。これまでの主要な推論手法、例えばChain-of-Thoughtプロンプティングなどは、モデルに推論ステップを一つずつ外部に生成させることで、複雑な問題解決を可能にしてきました。

しかし、RiM (Reasoning in Memory) と呼ばれるこの新しい手法では、推論ステップを明示的なトークンとして生成するのではなく、特殊なトークンの固定シーケンスであるメモリーブロックを通じて、モデルの内部状態を操作します。このメモリーブロックは、人間のワーキングメモリのように、情報を一時的に保持し、加工するために用いられます。重要なのは、これが「生成」されるのではなく「固定」されたシーケンスであるという点です。

これにより、推論の過程で発生する計算コストを大幅に削減できるだけでなく、推論そのもの(内部的な情報処理)と、その結果のコミュニケーション(最終的な解答の出力)を明確に分離することが可能になります。これは、LLMがより人間らしい、効率的かつ柔軟な思考プロセスを獲得するためのブレイクスルーと言えるでしょう。

技術的な核心

RiMは、大規模言語モデルが潜在的に持つワーキングメモリの能力を解き放つために、「メモリーブロック」と「2段階カリキュラム学習」という二つの主要な要素を採用しています。

メモリーブロックのメカニズム

RiMの中心にあるのは、特殊なトークンで構成された「メモリーブロック」です。これは、特定の長さ(例えば、数個から数十個のトークン)を持つ固定されたシーケンスであり、通常の入力トークンや生成された出力トークンとは異なる役割を果たします。モデルがこのメモリーブロックを処理する際、それは自己回帰的なトークン生成を行うのではなく、Transformer(変換器)の内部アテンションメカニズムやフィードフォワードネットワークを介して、モデルの隠れ状態(内部表現)を更新・操作します。これにより、モデルは外部に何も出力することなく、内部的に情報を保持し、推論ステップを実行することができるのです。

メモリーブロックが固定シーケンスであることの大きな利点は、その処理が単一のフォワードパスで完結するという点です。従来の自己回帰的な生成では、各トークン生成のたびにモデルを順方向(フォワードパス)に実行する必要があり、これが推論のレイテンシ(遅延)と計算コストを増大させていました。RiMでは、メモリーブロック内のすべての特殊トークンを一度に入力として扱うことができるため、大幅な効率化が期待できます。

2段階カリキュラムによる学習

メモリーブロックを効果的に機能させるためには、モデルに「内部でどのように思考するか」を学習させる必要があります。RiMでは、このために以下の2段階の学習カリキュラムを採用しています。

接地フェーズ (Grounding Phase): この段階では、モデルにメモリーブロックの直後に明示的な推論ステップを予測させます。具体的には、与えられた問題とメモリーブロックの後、モデルがChain-of-Thoughtなどで示されるような中間思考ステップを生成するように学習します。これにより、モデルはメモリーブロックの内部処理が具体的な推論ステップにどのように対応するかを学び、メモリーブロックを「意味のある内部計算」として「接地(ground)」させます。このフェーズでは、メモリーブロックが単なるノイズではなく、推論に寄与する内部状態の変化を引き起こすようにモデルを導きます。
洗練フェーズ (Refinement Phase): 接地フェーズでメモリーブロックが推論に使えるようになったら、次にステップレベルの明示的な教師信号(中間思考ステップ)を破棄します。このフェーズでは、各メモリーブロックが処理された後、モデルが最終的な解答を反復的に改善するように学習します。つまり、メモリーブロックはもはや外部に思考を生成するためのものではなく、最終解答の質を高めるための内部的なワーキングメモリ操作として機能します。モデルは、メモリーブロックを通過するたびに、その内部状態を更新し、最終的な出力に対する自信を高めたり、誤りを訂正したりする能力を身につけていきます。

この2段階のアプローチにより、RiMは、モデルが自己回帰的な生成に頼ることなく、メモリーブロックを通じて複雑な推論タスクを効率的に処理する能力を獲得することを可能にします。これにより、LLMは人間のような内部的な思考プロセスを模倣し、より高度な「潜在推論」を実現する道が開かれます。

実験結果と評価

この研究は、RiMが大規模言語モデルの推論能力向上に効果的であることを、複数の実験を通じて示しています。論文のアブストラクトによると、RiMは「異なるファミリーとサイズの言語モデルにおいて、既存の潜在推論手法と同等またはそれ以上の性能を発揮」したと報告されています。

これは非常に重要な結果です。なぜなら、RiMが自己回帰的な思考の生成を回避しているにもかかわらず、従来のCoTなどの手法と同等、あるいはそれ以上の推論精度を達成していることを示唆しているからです。具体的な数値やベンチマーク名がアブストラクトには明記されていませんが、一般的にLLMの推論能力は、算術推論、常識推論、記号推論、多段階推論などの様々なタスクで評価されます。これらのタスクにおいて、RiMが競争力のある性能を示したことは、その汎用性と有効性を裏付けています。

この成果は、計算効率の面で大きな利点をもたらします。自己回帰的な生成を伴わないため、推論にかかる時間(レイテンシ)や計算リソースを大幅に削減できると期待されます。これは、特に大規模なLLMを実運用する上で、コスト削減と応答速度向上という点で直接的なメリットとなります。

実用への示唆

RiM (Reasoning in Memory) の研究は、大規模言語モデルの実用化と研究の双方に、いくつかの重要な示唆を与えています。

1. 計算効率とレイテンシの改善: 自己回帰的な中間トークン生成が不要になることで、LLMの推論プロセスは大幅に高速化されます。これは、リアルタイム応答が求められるチャットボット、対話型AIアシスタント、またはオンラインでの情報検索システムなどにおいて、ユーザーエクスペリエンスを劇的に向上させる可能性を秘めています。また、計算リソースの消費量も削減されるため、運用コストの低減にも繋がります。

2. 新しいAIシステムの設計: 推論とコミュニケーションのプロセスが分離されることにより、より堅牢で制御しやすいAIシステムを設計できるようになります。たとえば、モデルが内部で複雑な推論を行った結果だけを外部に提示し、冗長な中間思考の出力を避けることが可能です。これにより、より簡潔で要点を押さえたAIの応答が期待でき、ユーザーにとっての分かりやすさが向上するでしょう。

3. 小規模モデルの能力向上: アブストラクトでは「異なるファミリーとサイズの言語モデル」でRiMが有効であったと述べられています。これは、必ずしも超大規模なモデルでなくても、このワーキングメモリのメカニズムを導入することで推論能力を向上させられる可能性を示唆しています。計算リソースが限られる環境や、エッジデバイス上でのAI展開においても、RiMのような効率的な推論手法が役立つかもしれません。

4. LLMの内部メカニズムへの理解: RiMは、LLMが単なるパターンマッチングの機械ではなく、人間のような「内部的な思考」や「ワーキングメモリ」の概念を模倣できることを示しています。これは、LLMがどのようにして複雑な問題を解決しているのか、その内部メカニズムを深く理解する上での重要な一歩となります。将来的には、この理解を基に、より透明性が高く、説明可能なAIシステムの開発に繋がる可能性もあります。

5. 汎用的な推論基盤としての応用: 現在のRiMが様々な推論ベンチマークで有効であることが示されたように、将来的に、より広範なタスクやドメインにおいて、LLMの汎用的な推論能力を向上させる基盤技術となるかもしれません。例えば、科学的な発見、医療診断、創造的な問題解決など、高度な推論が要求される分野での応用が期待されます。

まとめ

今回ご紹介した論文では、大規模言語モデル(LLM)の推論能力を向上させつつ、現在の手法が抱える計算コストとレイテンシの問題を解決する新しいアプローチ、RiM(Reasoning in Memory)が提案されました。

RiMは、人間のワーキングメモリの概念に着想を得て、推論ステップの自己回帰的なトークン生成を、特殊なトークンの固定シーケンスからなる「メモリーブロック」に置き換えます。このメモリーブロックは、モデルが外部に何も出力することなく、内部的に情報を保持し、操作することを可能にします。このアプローチにより、推論と外部コミュニケーションの結合が解消され、計算効率が大幅に向上するという大きなメリットが生まれます。

2段階のカリキュラム学習を通じて、モデルはメモリーブロックを効果的な内部推論メカニズムとして機能させることを学習します。実験結果は、RiMが既存の潜在推論手法と同等かそれ以上の性能を達成しつつ、自己回帰的な思考生成を不要にすることを示しています。これは、LLMが内部的なワーキングメモリを効果的に活用して潜在推論を行う能力があることを明確に示唆するものです。

RiMは、LLMの推論性能と計算効率の両面を改善する画期的な手法であり、リアルタイム応答が求められるアプリケーションや、リソースが限られた環境でのLLM活用に新たな可能性を開くでしょう。今後の研究で、より複雑な推論タスクへの適用や、メモリーブロックの最適化が進むことが期待されます。

元論文

タイトル: Unlocking the Working Memory of Large Language Models for Latent Reasoning
著者:
arXiv ID: 2605.30343

※ 本記事には Amazon アソシエイト・楽天アフィリエイト・A8.net 等のアフィリエイト広告が含まれる場合があります。リンクから商品・サービスが購入された場合、紹介料を受け取ることがあります。

大規模言語モデルの「ワーキングメモリ」を解放し、効率的な潜在推論を実現する新手法RiM

この研究の新規性

技術的な核心

実験結果と評価

実用への示唆

まとめ

元論文

$π\mathbf{R}^2$が実現する高反応ロボット操作：フローポリシーのリアルタイム課題を解決

「バトンタッチ」で精度向上！軌道リレー型オンポリシー蒸留「Relay-OPD」がLLMの学習効率と堅牢性を高める

オンポリシー拡散蒸留でCFGの課題を解決するPDM：Negative Branch Asymmetry克服で堅牢な知識転移を実現