LeVo 2が実現する、階層的モデリングと漸進的学習による安定した高品質楽曲生成

近年、テキストや画像生成AIの目覚ましい進化は、クリエイティブな分野に大きな変革をもたらしています。その中で、音楽生成AIもまた、研究者や開発者から熱い注目を集めています。

しかし、単に音符を並べたり短いフレーズを生成したりするだけではなく、1曲を通して一貫性のある「全尺の楽曲」を生成することは、極めて複雑で困難な課題です。楽曲生成AIには、以下のような多岐にわたる要求が寄せられています。

一貫性と音楽性: 曲全体を通して破綻なく、音楽的に自然で美しい構造を保つこと。
詳細な音響表現: ボーカルの繊細な歌い方や、各楽器の豊かな響きをリアルに再現すること。
制御性: ユーザーが与える歌詞やプロンプト、あるいは感情などの指定に正確に追従すること。

既存の言語モデル（LLM）ベースの楽曲生成システムは、これらの課題に対し、ある構造的なトレードオフに直面していました。

混合トークンモデリング: ボーカルと伴奏を一緒のトークン列で扱う手法です。これにより、ボーカルと楽器間の協調性や全体の一貫性は比較的保たれます。しかし、個々のトラック（ボーカルや特定の楽器）に特化した詳細な音響表現が曖昧になりがちでした。
デュアルトラック予測: ボーカルと伴奏を別々のトラックとして独立して予測する手法です。これにより、各トラックの音響品質や詳細度は向上します。しかし、生成されるシーケンスが非常に長くなり、楽曲全体のグローバルな計画性や一貫性が弱まるという問題がありました。

今回ご紹介する論文で提案されている「LeVo 2」は、このトレードオフを解決し、制御可能で安定した高品質な全尺楽曲生成を目指す、ハイブリッドなフレームワークです。本記事では、LeVo 2がどのようにこれらの課題を克服し、音楽生成の新たな可能性を切り開いているのかを詳しく解説していきます。

この研究の新規性

LeVo 2の新規性は、主に「階層的表現モデリング」と「美的感覚ガイド付き漸進的ポストトレーニング」という二つのアプローチの組み合わせにあります。既存手法が抱えていた「全体の一貫性」と「個別の音響品質」という構造的なトレードオフに対し、LeVo 2はこれらを段階的に解決する戦略を採用しました。

まず、LeVo 2は楽曲全体の「意味的な計画」を行うフェーズと、その計画に基づいて各トラックの「音響的な洗練」を行うフェーズを明確に分離する「階層的モデリング」を導入しています。これにより、既存の混合トークンモデルが抱える詳細表現の不足や、デュアルトラックモデルが抱える全体計画の弱さを補完し、両者の利点を統合することを目指します。

さらに、もう一つの大きな新規性は、その洗練されたトレーニングスケジュールです。LeVo 2は、単に大量のデータで学習するだけでなく、自動音楽美的評価フレームワークを用いてデータに「音楽性の階層」を付与します。そして、音楽性、制御性、音響品質という複数の学習目標を、それぞれ独立して、かつ段階的に最適化する「プログレッシブ・ポストトレーニング」を行います。このアプローチにより、異なる学習目標間で発生しがちな最適化の競合を大幅に軽減し、各側面において高い品質を達成することに成功しています。

LLMの強力な文脈理解能力と、拡散モデル（Diffusion Model）の持つ高品質な波形生成能力を組み合わせたハイブリッドフレームワークである点も、この研究の大きな特徴と言えるでしょう。

技術的な核心

LeVo 2は、LLMと拡散モデルを組み合わせたハイブリッドフレームワークで、主に以下の要素で構成されています。

階層的表現モデリング

LeVo 2のアーキテクチャの中心にあるのは、楽曲生成プロセスを階層的に捉えるアプローチです。これは、楽曲を大まかな計画から詳細な音響へと段階的に生成することで、一貫性と詳細表現を両立させます。

LeLM (Language Model for Music): これは楽曲全体のセマンティック（意味的）な計画を担当する、大規模言語モデルです。まず、楽曲全体の「混合トークン」を予測します。この混合トークンは、楽曲のジャンル、ムード、コード進行、主要なメロディーラインといった、全体的な構造と流れを設計する役割を担います。LeLMは、与えられたプロンプトや歌詞に基づき、楽曲全体の一貫性と構造的安定性を確保するための「設計図」を作成すると考えられます。
Track-Specific LM (トラック固有の言語モデル): LeLMによって作成された全体計画に基づき、ボーカルと伴奏のトークンを「並行して」予測します。このモデルは、各トラックに特化した詳細な音響情報を生成する役割を担います。例えば、ボーカルの歌い方、発音、感情表現、あるいは各楽器の演奏技法や音色といった、より具体的な「音響的洗練」を行います。LeLMが提供する全体的なコンテキストを保ちつつ、各トラックに最高の音響品質をもたらすことを目指します。
DiffusionベースのMusic Codec (音楽コーデック): LeLMとTrack-Specific LMから生成されたトークン列を受け取り、それを最終的な「全尺の波形」に再構築するコンポーネントです。拡散モデルは、ノイズから徐々にリアルなデータを生成する特性を持っており、これにより、生成された楽曲トークンから、豊かで高品質な音響を再現することが可能になります。

美的感覚ガイド付き漸進的ポストトレーニング

LeVo 2のもう一つの重要な技術的貢献は、その洗練されたトレーニングスケジュールです。これは、音楽性、制御性、音響品質という異なる目標を効率的に学習するための多段階アプローチです。

プレトレーニング段階: まず、大規模な音楽データセットに対して、自動音楽美的評価フレームワークが適用されます。このフレームワークは、データの音楽性を分析し、その「音楽性階層的条件 (musicality-tier conditions)」を割り当てます。これは、人間が感じる音楽の「良さ」や「美しさ」といった抽象的な概念をモデルに事前知識として与えるもので、モデルが基本的な音楽性を備えた楽曲を生成するための基盤を築きます。
プログレッシブ・ポストトレーニング (Progressive Post-Training):
- SFT (Supervised Fine-Tuning): まずは教師あり学習によって、モデルの基本的な楽曲生成能力を確立します。
- 大規模オフラインDPO (Direct Preference Optimization): 次に、DPOという選好学習手法を大規模なオフラインデータセットに適用します。DPOは、与えられた複数の生成結果の中から、人間がより好ましいと評価する方向へモデルを最適化する手法です。これにより、人間の好みや美意識をモデルに効率的に反映させます。
- クローズドループ半オンラインDPO (Closed-Loop Semi-Online DPO): さらに、生成と評価のフィードバックループを持つ半オンライン形式のDPOを導入します。これは、モデルが自身の生成結果を評価し、それに基づいてさらに学習を進めることを可能にする、より動的で適応的な選好学習アプローチです。これにより、モデルは継続的に生成品質、制御性、音楽性を改善していくことができます。
モジュール拡張 (Modular Extension): 上記の学習を経て、楽曲全体の意味的な計画を行うLeLMは高いアライメント（人間の好みとの一致）を実現しています。この状態を維持したまま、音響的な洗練を担当するTrack-Specific LMを個別に訓練します。このモジュール化された学習アプローチにより、音楽性学習、制御性アライメント、音響洗練という異なる最適化目標が互いに干渉し合うことなく、効率的に学習を進めることが可能になり、最適化の競合を軽減します。

実験結果と評価

論文では、LeVo 2の有効性を検証するために、専門家による聴覚テストと客観的な評価が行われました。

専門家による聴覚テストでは、LeVo 2が既存のオープンソースのベースラインモデルと比較して、6つの主観的な側面（例として、楽曲の一貫性、音楽的な表現力、ボーカルの自然さ、伴奏の豊かさ、プロンプトへの追従性、全体的な品質などが考えられます）において、優れた性能を示したと報告されています。これは、LeVo 2が人間が感じる「良い音楽」の基準において、高いレベルを達成していることを示唆しています。

また、客観的な評価指標においても、LeVo 2は主要な商用システムに匹敵するレベルの性能をいくつかの聴覚評価指標で示しました。これは、研究段階のシステムが商用レベルの品質に迫る成果であり、この分野における大きな進歩と言えるでしょう。

さらに、アブレーションスタディ（構成要素を一つずつ取り除いてその効果を検証する実験）も実施されました。これにより、提案されたトレーニング戦略、美的感覚ガイド付き学習、モデルのスケーリング（規模の拡大）、そして階層的アーキテクチャといった各要素が、システムの全体的な性能向上にそれぞれが大きく貢献していることが検証されました。

実用への示唆

LeVo 2の研究成果は、音楽制作や関連産業において非常に大きな実用的な示唆を持っています。

クリエイターの支援: 作曲家やサウンドデザイナーが、アイデアを素早くプロトタイプ化したり、多様なバリエーションを生成したりするための強力なツールとなり得ます。例えば、特定のムードやジャンル、楽器構成を指定するだけで、高品質な伴奏やボーカルラインを生成し、クリエイティブなプロセスを加速させる可能性があります。
メディアコンテンツ制作: ゲーム、映画、アニメ、広告などのメディアコンテンツ制作において、シーンに合わせたBGMや効果音を効率的に生成できるでしょう。特定の感情や物語の展開に合わせた、カスタマイズされた楽曲の需要に応えることが期待されます。
音楽教育: AIが生成した楽曲を分析することで、音楽理論や作曲技法を学ぶ新しい方法が提供されるかもしれません。
AI研究への貢献: LeVo 2が採用した「階層的モデリング」や「美的感覚ガイド付き漸進的学習」の概念は、音楽生成だけでなく、画像、動画、テキストなど、他のマルチモーダルな生成AIにおける複雑な品質向上や制御性確保にも応用できる可能性があります。特に、複数の最適化目標を持つ大規模AIモデルの学習において、目標間の競合を回避し、効率的に高品質な結果を得るためのトレーニング戦略設計に新たな視点を提供するでしょう。

まとめ

LeVo 2は、全尺の楽曲生成が抱える主要な課題、すなわち一貫性、音楽性、詳細な音響表現、そして制御性を克服するために、革新的なアプローチを提案しました。

階層的表現モデリングにより、楽曲全体の「意味的な計画」と各トラックの「音響的な洗練」を分離し、既存手法のトレードオフを解消しました。さらに、美的感覚ガイド付き漸進的ポストトレーニングという多段階の学習戦略により、音楽性、制御性、音響品質という異なる目標を効率的に最適化することに成功しています。

実験結果は、LeVo 2がオープンソースのベースラインを大きく上回り、商用レベルのシステムに匹敵する高品質な楽曲生成能力を持つことを示しています。この研究は、AIがより人間的で創造的なタスクをこなすための重要な一歩であり、今後の音楽生成AIの発展に大きく寄与するものと期待されます。

元論文

タイトル: LeVo 2: Stable and Melodious Song Generation via Hierarchical Representation Modeling and Progressive Post-Training
著者: 不明
arXiv ID: 2606.30642

LeVo 2が実現する、階層的モデリングと漸進的学習による安定した高品質楽曲生成

この研究の新規性

技術的な核心

階層的表現モデリング

美的感覚ガイド付き漸進的ポストトレーニング

実験結果と評価

実用への示唆

まとめ

元論文

関連書籍・学習リソース

最高の答えを引き出す生成AIプロンプトの技法

VLK: 再構築シーンと合成データでヒューマノイドの移動操作学習を加速する

ゲーム理論ソルバーはナッシュ均衡のどの戦略を選ぶのか？アルゴリズム依存の選択メカニズムを解明

ロボットが器用な多腕操作をこなす鍵：DexComposeによるスキル再利用と干渉抑制

この研究の新規性

技術的な核心

階層的表現モデリング

美的感覚ガイド付き漸進的ポストトレーニング

実験結果と評価

実用への示唆

まとめ

元論文

関連書籍・学習リソース

最高の答えを引き出す 生成AIプロンプトの技法

VLK: 再構築シーンと合成データでヒューマノイドの移動操作学習を加速する

ゲーム理論ソルバーはナッシュ均衡のどの戦略を選ぶのか？アルゴリズム依存の選択メカニズムを解明

ロボットが器用な多腕操作をこなす鍵：DexComposeによるスキル再利用と干渉抑制

最高の答えを引き出す生成AIプロンプトの技法