ティアフォーと松尾研究所は、2020年から共同研究を開始し、2025年で6年目を迎えました。本共同研究では自動運転レベル5の実現を目指し、短期テーマと長期テーマという2つの時間軸で課題解決に取り組んでいます。
短期テーマでは、ティアフォーが開発を主導する自動運転用のオープンソースソフトウェア「Autoware」の機能改善に取り組んでいます。具体的には、松尾研究所が持つ深層学習に関する知見を活かし、自動運転の現場に近い立場から、「Autoware」が有するモジュールによる周囲車両の認識・行動予測や自車両の行動計画の改善などを進めています。
一方、長期テーマでは、松尾研究所が注力している「世界モデル」の自動運転領域への応用に取り組んでいます。世界モデルは、観測情報から実世界の変化を学習するモデルです。この技術を自動運転領域に応用することで、より高次な自動運転技術の実現に貢献できると考え、基礎研究的な立場から研究開発を進めています。
本記事は、2024年度の取り組み内容を報告する全2回のブログの最終回です。第1回では長期テーマで取り組んだ世界モデル開発を紹介しました。第2回となる今回は、短期テーマに焦点を当てた取り組みを、史育寧さん、髙田直輝さん、竹内悠人さん、田端そらさん、山下佳威さんのメンバーで報告します。
自動運転システムにおける軌道予測は、近年の高精度化・高多様化の要求により大きく進歩しています。従来のシステムは単一の将来軌道のみを想定することが多く、道路状況や交通参加者の多様な挙動を十分にカバーしきれない課題がありました。そこで、マルチモーダル(多様な将来候補)な軌道予測を実現するために Multi-future Trajectory Representation(MTR) [1]が登場し、従来手法 Single-future INTent Prediction Learning(SIMPL) [2]への組み込みが試みられています。
本稿では、SIMPLフレームワークにMTRのintention points(エージェントごとにクラスタリングされた代表的な最終位置)とガウス分布(Gaussian Mixture Model:GMM)に基づく多モーダルロスを導入し、多様な将来軌道を同時に扱う学習・推論 を可能とした事例について解説します。従来SIMPLとの比較による利点や、学術的背景についてもあわせて紹介します。
クラス(車両・歩行者など)や走行パターンごとにあらかじめクラスタリングされた最終位置を利用することで、モデル内部で複数候補ゴールを明示的に扱えます。これにより、単一軌道予測では見落とされがちな分岐やレアケースへの対応が向上すると期待されます。
最終位置の分岐に応じて複数の将来パターンを同時に生成・評価する設計が容易になり、学習時にはそれぞれのモードに対応した誤差を統合的に削減できます。最終的には 不確実性の高い複数の未来 を確率的に表現することが可能になります。
交差点右折車両の生成パスが道路に沿っていない例
MTR由来のintention pointsによって多様な終端を扱うだけでなく、将来予測を ガウス分布(GMM) で定式化する利点があります。具体的には、次のような数式により多モードを表現します。
ここで、
を表します。
誤差関数(GMMロス)は、
をもとに次の対数尤度の最大化、もしくは負の対数尤度最小化として与えられます。
これにより、単なる座標回帰以上の 確率的・多様性を考慮した学習 が可能になり、各軌道の分散やモードを適切に分離できると期待されます。
もともとSIMPLで意図していなかった複数モード出力を扱うため、クラスタ化されたintention points を学習・推論パイプラインに導入し、エージェントごとに最適な複数ゴール位置を参照できるように拡張しました。
学習フェーズにおいて、既存の最大マージンロスやSmooth L1ロスに加えて、GMMロス を組み合わせる総合的な損失設計とし、単一モードに偏らない確率的な軌道推定を目指しました。
本年度の取り組みの概略
今回の実験では、複数のエージェントクラス(車両・歩行者など)でクラスタリングされたintention pointsを用いて、Argoverse2データセットを対象に学習を実施しました。その結果、以下のような傾向が観察されました。
意図点のクラスタを適切に割り当てられたエージェントほど、最終地点の推定誤差が小さくなる傾向が見られました。
GMMロスの導入により、複数モードが形骸化せず、異なる意図点それぞれに対して一定の分散を持った予測が得られました。
改善した予測モデルの出力
今回のMTR的拡張を取り込んだSIMPLは、intention pointsに基づいて多様な将来軌道を扱えるようになったとはいえ、さらなる改善と発展が見込まれています。
既存のクラスタはオフラインでの静的生成ですが、学習中に動的にクラスタ構造を最適化するなど、より適応的なクラスタリングを導入する可能性があります。
速度・加速度や交通ルール(車線・信号など)の高次元情報を組み合わせることで、intention pointsの意味的解釈 がさらに明確化され、予測性能の向上が期待されます。
実際の自動運転案件で使われる大規模かつ多様なデータを対象にし、マルチモーダル予測 としての汎用性やスケーラビリティを検証していく必要があります。
現在、「Autoware」に実装されている自車両の行動計画(Planning)モジュールは、主にルールベースのアルゴリズムに基づいて構築されています。こうした方式は、シンプルな走行シナリオに対しては一定の効果を発揮する一方で、設計時に想定されていなかった複雑な交通状況やエッジケースへの対応には限界があり、行動計画の精度向上に課題を抱えています。
この課題を解決すべく、本研究では、ルールベースのアルゴリズムから、走行データに基づく深層学習モデルへの転換を試みました。具体的には、近年高い精度を示している深層学習ベースの行動生成モデルであるSTR2[3]の適用を検討し、その実装と評価を行いました。
STR2は、Transformerアーキテクチャを中核とする行動計画モデルであり、空間的・時間的情報を同時に考慮した高度な軌道予測を可能にします。本モデルは、自車両および周辺車両の過去軌跡、ならびに地図情報を入力とし、それらを統合的に処理することで、自車両の将来の走行軌道を出力します。
STR2の主な構成要素は、以下の通りです。
このようにSTR2は、多様な運転文脈に対応可能な柔軟性を備えており、自動運転における複雑な行動計画に対して有効な手法と位置づけられています。
STR2のアーキテクチャ[3]
STR2を「Autoware」に統合するにあたり、最も重要な前処理の1つが「Autoware」の持つデータ形式をSTR2が要求するBEVラスタライズ形式へと変換することです。具体的には、以下の2種のデータソースから、モデル入力用のラスタライズ画像を生成するモジュールを新たに実装しました。
本モジュールでは、道路形状、車線、信号、標識等の地図要素に加え、対象車両の軌跡をBEV画像上に統合的に描画し、STR2の入力形式に準拠したデータセットを生成可能としています。
ROSBAGから生成した入力データ
上記の変換プロセスを経て、実際に「Autoware」の走行データを用いてSTR2の学習を行いました。以下の図は、その結果として生成された将来軌道と対応するGround-Truthの例です。
教師データ(上)と生成された軌道(下)
この図より、ラベルとなる将来軌道と同等の進路、速度の軌道を生成できていることがわかります。
本検証により、「Autoware」において深層学習ベースの行動計画を導入する技術的可能性が示されました。今後は大規模なデータセットを作成して学習するなど、さらなる性能向上および実運用に向けた検証を進めていく予定です。
現行の「Autoware」におけるPlanning手法はルールベースで実装されており、特定のシナリオに則った軌道のみ計画できます。このため、複数のシナリオが絡み合った軌道や、想定されていないエッジケースにおける軌道は生成できないという課題があります。 近年、データ駆動型のPlanningモジュールはマルチモーダルな軌道を複数出力し、状況に応じてそれらを評価して軌道の選択肢を絞るという構成になっています。現在では軌道評価をルールベースで行う手法が主流ですが、安全性に関してフィルタリングした上で、より人間らしい自然な軌道 の選択が課題となっています。
軌道評価器のイメージ
この課題に対し、人間の運転データを基にして、世界で初めて逆強化学習による軌道評価を市街地での実車両走行に導入したMotionalのDriveIRL[4]という手法を参考に、ティアフォーが収集した国内の運転データを用いて 逆強化学習による軌道評価モデルの学習 を試みました。
逆強化学習とは、環境の観測データとエキスパートの行動履歴から報酬関数を推定する手法です。強化学習が環境の観測データと設定された報酬関数から行動を決定する方策や価値関数を学習するのに比べ、入力データと学習対象が一部逆になっています。近い手法として、エキスパートの行動との差から方策を学習する行動クローン(Behavier cloning)があります。逆強化学習では単純に行動を模倣するのではなく、その背後にある報酬関数を推定することで、学習した報酬関数を用いた強化学習によって獲得する方策が比較的良く汎化する可能性があり、注目されています。
今回は実車での走行データから学習した報酬関数を軌道評価に用いるため、最大エントロピー損失を用いたオフラインでの学習となります。
今回の実験では、モデルはLSTMまたはTransformerを4層重ね、どちらも総パラメータ数を10万程度としました。学習データとしては、公道を走行して取得したROSBAGデータから作成した約8秒の軌道データが6,000軌道程度で、ダミーデータとしてノイズを付与したものを60,000軌道程度使用しました。モデルへの入力は、過去1秒、未来7秒の自車両と周囲車両の軌道データを使いました。
結果としては、図に示す学習履歴のように、各時刻の座標にノイズを付与したダミーデータと実走行データとの間に評価のギャップを生む よう学習することに成功しました。また、学習時の損失関数と評価スコアは以下の様に定義しました。損失関数にはFocal lossを適用しており、評価時には学習に用いていない300軌道を使用しました。
Train Loss(左:LSTM、右:Transformer)
Evaluation Score(左:LSTM、右:Transformer)
今後は、地図データの入力による影響を調査したり、単純なダミーデータではなく、従来のPlanningモジュールの出力などのより妥当な軌道をダミーとして用いて学習や解析を進める予定です。
本記事では、2024年度のティアフォーと松尾研究所の短期テーマの取り組みを紹介しました。長期テーマの取り組みは「2024年度 松尾研究所との共同研究プロジェクト:世界モデルの自動運転分野への応用」をご覧ください。
2023年度の取り組みについての記事はこちら
[1] Shi, Shaoshuai, et al. “Motion Transformer with Global Intention Localization and Local Movement Refinement.”, NeurIPS , 2022.
[2] Zhang, Lu, et al. “SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving.”, IEEE RA-L, 2024.
[3] Qiao Sun, et al., “Generalizing Motion Planners with Mixture of Experts for Autonomous Driving”, ICRA, 2025.
[4] Phan-Minh, Tung, et al., “DriveIRL: Drive in Real Life with Inverse Reinforcement Learning,” ICRA, 2023.
ティアフォーでは、「自動運転の民主化」というビジョンに共感を持ち、自らそれを実現する意欲に満ち溢れた新しい仲間を募集しています。
今回のチームで募集中の職種
ティアフォーではAI関連の職種を多く採用をしています。詳細は、ティアフォーの「求人ページ」をご覧ください。
「どの職種で自分の経験を活かせるかが分からない」「希望する職種が見つからない」などの場合は、ぜひ「キャリア登録」をお願いします。
お問い合わせ先
ソーシャルメディア
X (Japan/Global) | LinkedIn | Facebook | Instagram | YouTube
関連リンク