buto > /dev/null

だいたい急に挑戦してゴールにたどり着かずに飽きる日々です

自作ゲームで強化学習 #2

前回の記事からgymにもっとゲームをあそんでもらうべく、報酬の条件を調整してみる!

スコアに応じた報酬を与えてみる

  • スコア0:-10
  • それ以上:スコア÷100(スコア100だと報酬+1)

結果:カップケーキを1つ取ったら動かなくなった コードはこちら

f:id:butorisa:20201020172252p:plain

5秒以内にカップケーキを取ったらボーナスを与える

上記のスコア+(前回ケーキを取ってから)5秒以内だったら更に10加算

結果:カップケーキを1つ取ったら動かなくなった

f:id:butorisa:20201020172307p:plain

5秒以内にプレイヤーが移動したらボーナスを与える

上記2つに加えて移動したら報酬を増やすようにした

結果:移動は増えたが、ケーキを取りに行く感じではなかった

ここまでのコードはこちら

わかったこと

  • 「5秒以内に動かなかったら報酬をマイナス」という減点法は効果なかった
    • プレイヤーが動かないままになってしまった
  • 「プレイヤー移動で報酬プラス」は効果あり
    • 移動アクションは増えた
    • ケーキにたどり着かない場所を行ったり来たりする移動が多かった