研究紹介>強化学習

強化学習

 この研究テーマでは、あらゆる制御対象や制御問題に対して「強化学習」を用いた制御手法を提案することを目的としています。キーワードである「強化学習」とは報酬を基にした試行錯誤による学習のことです。

 Fig.1を用いて簡潔に説明しますと、まず制御器にあたる「エージェント」は制御対象である「環境」の「状態」を観測し、行動則に応じて「行動」を出力します。環境はこの行動を受けて状態が遷移し、それに応じてエージェントは「報酬」を得ます。エージェントはこの報酬を将来的に最大とするように行動則を更新します。環境との相互作用によって自律的にエージェントが学習を行う事から、不確実性のある環境や想定外の環境変化に対して有効な手段であると考えています。