Start_python’s diary
gymの倒立振子を使って強化学習Q-learning(Q学習)第2回 はじめに 前回は、状態を「4つの要素を6分割」して1296通りの中から今ある状態のときの「右と左」に「報酬と罰則」を与えながら得点の高い方を選ぶやり方でした。 今回は、状態を「2つの要素を8分…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。