2019-11-29から1日間の記事一覧

Q-learning（Ｑ学習）のＱ値を見える化

gymの倒立振子を使って強化学習Q-learning（Ｑ学習）第２回はじめに前回は、状態を「4つの要素を6分割」して1296通りの中から今ある状態のときの「右と左」に「報酬と罰則」を与えながら得点の高い方を選ぶやり方でした。今回は、状態を「2つの要素を8分…