機械制御工学研究室：研究内容

深層強化学習とは

■強化学習

　強化学習は、与えられた「環境」における期待値を最大化するように人工知能を学習させます。例えば、与えられた環境がブロック崩しゲームだとしたら人工知能は点数（スコア）を最大化するように学習を行います。学習の過程は、環境を何度も人工知能が行動し、試行錯誤を通じて行動価値関数と呼ばれる関数を近似することで期待値を最大化するように行います。しかし行動価値関数は状態の数だけ存在するため、環境が多様な状態を取りうる場合は学習が難しくなります。

■深層学習（ディープラーニング）

　人間は目で見た情報を脳で処理することで認識しています。処理を行うのは脳細胞が構成するニューロンネットワークによって行われ、常にネットワークが更新されています。深層学習は、人の脳のニューロンネットワークに模したネットワークを構築することで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする手法です。

■深層強化学習

　深層強化学習は人間が新たな動作を獲得する過程と同じです。人間が新たな動作を学習する際は目から得た情報から最も価値の高い行動を脳が学習します。深層強化学習では行動価値の学習に人の脳の視覚野をモデルにした畳み込みニューラルネットワークを用いることで人工知能は人間とお同じように次の最も価値の高い行動を学習していきます。　

Topへ

深層強化学習とは

menu