2019-12-02から1日間の記事一覧

モンテカルロ法による倒立振子 (Ｑ値を見える化)

gymの倒立振子を使って強化学習モンテカルロ法モンテカルロ法とQ-learning、SARSA法の違いモンテカルロ法は、アクションごとにQ値を更新するQ-learningやSARSA法と違い、CartPoleが倒れるまで行動しその行動履歴から一気にＱ値を更新します。モンテカルロ…