OpenSeeker-v2: わずか1万データで高難度検索を制覇するLLMエージェント訓練法

大規模言語モデル(LLM)を活用したエージェントの深層検索能力は、現代のAIフロンティアにおいて不可欠な技術となっています。しかし、これまでこのような高性能な検索エージェントの開発は、莫大なリソースを持つ大手企業が主導してきました。彼らが採用する一般的な開発パイプラインは、事前学習、継続事前学習(CPT)、教師ありファインチューニング(SFT)、そして強化学習(RL)といった、非常にリソース集約的な複数のフェーズで構成されています。

このような背景がある中で、本稿で紹介する論文「OpenSeeker-v2」は、この常識を覆す可能性を示しています。この研究は、情報を豊富に含み、かつ高い難易度を持つ「軌跡(trajectory)」を活用することで、驚くほどシンプルなSFTアプローチだけでも、最先端の検索エージェントを訓練できることを実証しました。これは、限られたリソースでも高性能なLLMエージェントを開発できる道を示唆しており、学術界やスタートアップ企業にとって非常に大きな意味を持ちます。

この研究の新規性

本研究の最大の新規性は、従来のLLMエージェント開発における重厚なパイプライン（CPT+SFT+RL）に依拠することなく、教師ありファインチューニング(SFT)のみで、複数のベンチマークにおいて既存の最先端手法を凌駕する性能を達成した点にあります。特に、純粋な学術チームが、このモデル規模(30B)とパラダイム（ReAct）において、SOTA（State-of-the-Art: 最先端）の検索エージェントを開発したのは初めてのことです。

彼らは、SFTの訓練データとして用いる「軌跡」の質を向上させることに注力しました。この「軌跡」とは、エージェントが一連の思考とアクション（例: 検索クエリの発行、ツールの使用、情報の抽出など）を通じて、与えられたタスクを解決していく過程の記録を指します。彼らは、この軌跡データ自体を「情報が豊富で、かつ高難度なもの」にすることで、モデルがより効率的に学習し、複雑な検索タスクに対応できるようになることを示しました。これは、モデルのアーキテクチャや訓練方法を複雑にするのではなく、データの設計と選択が性能向上にどれほど寄与するかを強調するブレイクスルーと言えます。

技術的な核心

OpenSeeker-v2の技術的な核心は、シンプルなSFTを極限まで活用するために考案された、「情報量が豊富で、難易度の高い軌跡」を合成する3つのデータ合成手法にあります。これらの手法により、エージェントは効率的かつ高度な推論能力と行動計画能力を習得できます。

知識グラフ(Knowledge Graph)サイズのスケールアップによる探索の深化: エージェントが利用できる仮想的な知識グラフのサイズを拡大することで、より広範で複雑な情報源を探索する必要があるタスクを生成します。これにより、エージェントは単一の検索結果に依存するのではなく、複数の情報源を横断的に調査し、関連性の高い情報を統合する能力を養うことができます。スケールアップされた知識グラフは、エージェントに「より深く、より広い」探索を促し、結果として得られる軌跡は、より多くの思考ステップとツール利用を含む、リッチな学習データとなります。
ツールセット(Tool Set)サイズの拡張による機能性の拡大: エージェントが使用できるツールの種類と数を増やすことで、より多様なタスクに対応できる汎用性の高い軌跡を生成します。一般的なWeb検索ツールだけでなく、特定のAPIへのアクセス、計算機、コード実行環境など、多岐にわたるツールをエージェントに提供します。これにより、エージェントは問題解決のためにどのツールを選択し、どのように組み合わせるかという複雑な計画立案能力を学習します。ツールセットの拡張は、単一の機能に特化したエージェントではなく、幅広い要求に応えられる「マルチモーダルな行動」を促す軌跡データを提供します。
厳密な低ステップフィルタリング(Strict Low-step Filtering)による質の向上: 合成された大量の軌跡データの中から、**「最低限のステップ数で、かつ正確にタスクを完了した」**軌跡のみを厳選します。これは、冗長な試行錯誤や非効率な経路を含む軌跡を除外することを意味します。このフィルタリングにより、SFTの訓練データは、エージェントにとって最も効率的で理想的な「正解パス」のみで構成されることになります。結果として、モデルは無駄な行動を避け、直接的かつ効果的な問題解決戦略を学習するようになります。この厳格なフィルタリングは、データ量よりもデータ品質を重視するアプローチであり、限られたデータポイントで最大の効果を引き出す鍵となります。

これらのデータ合成手法により、OpenSeeker-v2は、LLMエージェントが思考（Reasoning）と行動（Acting）を繰り返す「ReActパラダイム」において、非常に質の高い学習経験を得ることができ、その結果として、シンプルながらも非常に強力な検索能力を実現しているのです。

実験結果と評価

OpenSeeker-v2は、わずか10.6k（1万600点）のデータポイントで訓練されました。その性能は、30Bサイズのモデルをベースとし、ReActパラダイムを採用するエージェントとして、主要な4つのベンチマークで高い評価を受けました。比較対象として、CPT（継続事前学習）とSFT、RL（強化学習）を組み合わせた重厚なパイプラインで訓練された既存の最先端モデルであるTongyi DeepResearchが挙げられています。

OpenSeeker-v2のベンチマーク結果と、Tongyi DeepResearchとの比較は以下の通りです。

BrowseComp: OpenSeeker-v2は 46.0% を達成しました。これはTongyi DeepResearchの43.4%を上回ります。
BrowseComp-ZH (中国語版): OpenSeeker-v2は 58.1% を達成しました。これはTongyi DeepResearchの46.7%を大きく上回ります。
Humanity’s Last Exam: OpenSeeker-v2は 34.6% を達成しました。これはTongyi DeepResearchの32.9%を上回ります。
xbench: OpenSeeker-v2は 78.0% を達成しました。これはTongyi DeepResearchの75.0%を上回ります。

これらの結果から、OpenSeeker-v2は、よりシンプルなSFTアプローチと限られたデータ量にもかかわらず、すべてのベンチマークにおいてTongyi DeepResearchの性能を上回り、最先端の性能を達成していることが明確に示されました。特にBrowseComp-ZHにおける性能差は顕著で、多言語対応能力においても優位性を示しています。

実用への示唆

OpenSeeker-v2の研究成果は、LLMエージェント開発の現状と将来にいくつかの重要な示唆を与えます。

まず、最も大きな示唆は、大規模な事前学習や強化学習に頼ることなく、高品質なデータセットを用いたSFTだけでも最先端の性能を持つ検索エージェントを開発できるという点です。これは、限られた計算資源しか持たない学術機関やスタートアップ企業にとって、LLMエージェント研究のフロンティアに参入するための大きな障壁を取り除く可能性があります。高価なGPUクラスタや数ヶ月にわたる訓練期間がなくても、革新的な研究やプロダクト開発が可能になる道を開くものです。

次に、データ合成の品質が、モデルの性能に決定的な影響を与えるという再確認です。OpenSeeker-v2が示したように、「情報豊富で高難度な軌跡」を厳選して訓練データとすることで、モデルは効率的に複雑な推論と行動計画のスキルを習得します。これは、単にデータを増やすだけでなく、データの質、特にエージェントの行動ログやタスク解決過程といった「軌跡」データの設計に注力することの重要性を示しています。

さらに、このデータ合成手法は、特定のドメイン知識を持つ検索エージェントや、より複雑なマルチステップタスクを解決するエージェントの開発にも応用できる可能性があります。例えば、医療や法律といった専門分野に特化した知識グラフとツールセットを組み合わせることで、その分野に特化した高性能なエージェントを、より効率的に構築できるかもしれません。これにより、LLMエージェントの実用化がさらに加速すると期待されます。

まとめ

本記事では、教師ありファインチューニング(SFT)のみで最先端の検索エージェントを実現した論文「OpenSeeker-v2」について解説しました。従来の複雑でリソース集約的な開発パイプラインとは異なり、OpenSeeker-v2は「情報豊富で高難度な軌跡」という高品質なデータセットを合成し、これをSFTに活用することで、既存の最先端モデルを複数のベンチマークで凌駕する性能を達成しました。特に、知識グラフのスケーリング、ツールセットの拡張、そして厳密な低ステップフィルタリングという3つのデータ合成手法が、この驚異的な成果の鍵です。

OpenSeeker-v2の登場は、LLMエージェント開発におけるデータセントリックなアプローチの重要性を改めて示し、限られたリソースでもフロンティア研究に挑める可能性を広げました。本研究がモデルウェイトのオープンソース化を通じてコミュニティに共有されることは、今後のLLMエージェント研究の活性化に大きく貢献するでしょう。このシンプルかつ効果的な知見が、より多くの開発者や研究者に刺激を与え、新たなイノベーションを生み出すことを期待しています。

元論文

タイトル: OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
著者: (不明)
arXiv ID: 2605.04036

※ 本記事には Amazon アソシエイト・楽天アフィリエイト・A8.net 等のアフィリエイト広告が含まれる場合があります。リンクから商品・サービスが購入された場合、紹介料を受け取ることがあります。

OpenSeeker-v2: わずか1万データで高難度検索を制覇するLLMエージェント訓練法

この研究の新規性

技術的な核心

実験結果と評価

実用への示唆

まとめ

元論文

$π\mathbf{R}^2$が実現する高反応ロボット操作：フローポリシーのリアルタイム課題を解決

「バトンタッチ」で精度向上！軌道リレー型オンポリシー蒸留「Relay-OPD」がLLMの学習効率と堅牢性を高める

オンポリシー拡散蒸留でCFGの課題を解決するPDM：Negative Branch Asymmetry克服で堅牢な知識転移を実現