安全で信頼性の高い飛行自動操縦への一歩
MIT ニュース オフィスの Web サイトでダウンロードできる画像は、クリエイティブ コモンズ表示、非営利、改変禁止ライセンスに基づいて、非営利団体、報道機関、および一般の人々に提供されています。 提供された画像は、サイズに合わせてトリミングする以外に変更することはできません。 画像を複製する場合はクレジットラインを使用する必要があります。 以下に提供されていない場合は、画像のクレジットを「MIT」に記載してください。
前の画像 次の画像
映画「トップガン:マーベリック」で、トム・クルーズ演じるマーベリックは、一見不可能に見えるミッションを達成するために若いパイロットを訓練する任務を負っています。それは、岩だらけの峡谷の奥深くまでジェット機を飛ばし、地面から探知されないほど低い位置に留まるというものです。レーダーで確認し、岩壁を避けながら極端な角度で峡谷から急速に登ります。 ネタバレ注意: マーベリックの助けにより、これらの人間のパイロットは任務を達成します。
一方、機械は、同じドキドキするタスクを完了するのに苦労するでしょう。 たとえば、自律型航空機にとって、目標に向かう最も直線的な経路は、渓谷の壁に衝突したり、検出されないままになることを避けるために機械が行う必要があることと矛盾します。 既存の AI 手法の多くは、安定化回避問題として知られるこの矛盾を克服できず、安全に目標に到達することができません。
MIT の研究者は、複雑な安定化回避問題を他の方法よりもうまく解決できる新しい技術を開発しました。 彼らの機械学習アプローチは、既存の方法の安全性と同等かそれを上回っており、安定性が 10 倍向上しています。つまり、エージェントは目標領域に到達し、その領域内で安定した状態を維持します。
マーベリックを誇りに思う実験で、彼らの技術は、地面に衝突することなく狭い通路を模擬ジェット機を効果的に操縦することができました。
「これは長年にわたる困難な問題です。 多くの人がそれを見たことはありましたが、そのような高次元で複雑なダイナミクスを処理する方法を知りませんでした」と情報意思決定システム研究所 (LIDS) のメンバーであり、航空宇宙工学のウィルソン助教授であるチュチュ ファンは言います。 ) であり、この技術に関する新しい論文の上級著者でもあります。
ファンには、筆頭著者である大学院生のオズウィン・ソーが加わります。 この論文は「ロボット工学:科学とシステム」カンファレンスで発表される予定です。
安定化回避の課題
多くのアプローチは、システムを単純化して単純な数学で解決できるようにすることで、複雑な安定化回避問題に取り組んでいますが、単純化された結果は現実世界のダイナミクスに耐えられないことがよくあります。
より効果的な手法では、強化学習を使用します。これは、エージェントが目標に近づくための行動に対する報酬を与えながら試行錯誤によって学習する機械学習方法です。 しかし、実際には、安定を保つことと障害物を避けることという 2 つの目標があり、適切なバランスを見つけるのは面倒です。
MIT の研究者は、問題を 2 つのステップに分類しました。 まず、安定化回避問題を制約付き最適化問題として再構築します。 この設定では、最適化を解決することでエージェントが目標に到達して安定することができます。つまり、エージェントは特定の領域内に留まります。 制約を適用することで、エージェントは確実に障害物を回避できると So 氏は説明します。
次に、2 番目のステップとして、制約付き最適化問題をエピグラフ形式として知られる数学的表現に再定式化し、深層強化学習アルゴリズムを使用してそれを解決します。 エピグラフ形式を使用すると、強化学習を使用するときに他の方法が直面する困難を回避できます。
「しかし、深層強化学習は、最適化問題のエピグラフ形式を解決するように設計されていないため、それを単に問題に組み込むことはできませんでした。 私たちのシステムに適した数式を導き出す必要がありました。 これらの新しい派生を取得したら、それらを他の手法で使用されている既存のエンジニアリング手法と組み合わせました」と So 氏は言います。