問題
- 今までepisode毎に集計してlossが少なくなればモデルを保存するようにしていた
- lossは増加するばかりで、何度回しても減らない(原因は不明)
- 一方、TensorBoardでrewardを眺めると、episodeを進める度にrewardは増えていっていた
- rewardが増えたら保存するようにすれば良いのでは?
mean_q
は、rewardの増加と比例して増加する
問題に対する解
mean_q
が前episodeよりも改善(増加)した場合に、モデルを保存するようにした
ちょっと前からプロジェクト名を DeepFX にしました。よろしくお願いします。