機械が現在の状態を認知し、それに基づいて意思決定を行う学習方法

強化学習

強化学習(reinforcement Learning)は、試行錯誤を通じて価値を最大化する行動を学習する方法の一つである。強化学習の学習は、エージェントと環境のやりとりを通じて行う。エージェントは、車のほかにロボットであったりする。また、環境は、実世界の空間だけでなく、コンピュータ上で作り出されたシミュレーション空間であってもよい。学習の流れとしては、エージェントが、センサーなどを通して、光や音声など環境の状態を認知し、それに基づいて行動する。そして、エージェントの行動が、環境の状態を変化させる。そのため、エージェントが次の行動を行うために、再び環境の状態を認知する必要がある。このように、エージェントは、環境の認知と環境への行動を繰り返すこによって、一連の行動を行なっていく。そして、こうした一連の行動が終了したときに、そのれまでの行動に応じた報酬が与えられる。

強化学習は、エージェントと環境同士のやり取りを通して学習を行う学習方法である。

強化学習