CNTKの強化学習でFXトレードする(3日目)

FX1年分のデータを学習させました。たまにプラスにはなりますが、おおくがマイナスの状態です。勝ちパターンを見つけてるとはいいがたいですね。

episode: 1 local_step: 1440 global_step: 1440 sum_rewards: -162.59999999999937 sum_count: 921 epsilon: 0.85744
episode: 2 local_step: 1440 global_step: 2880 sum_rewards: -136.40000000000077 sum_count: 768 epsilon: 0.71488
episode: 3 local_step: 1440 global_step: 4320 sum_rewards: -124.60000000000133 sum_count: 695 epsilon: 0.57232
...
episode: 8 local_step: 1440 global_step: 11520 sum_rewards: -47.60000000000014 sum_count: 242 epsilon: 0.01
episode: 9 local_step: 1440 global_step: 12960 sum_rewards: -3.600000000000004 sum_count: 36 epsilon: 0.01
episode: 10 local_step: 1440 global_step: 14400 sum_rewards: 0.0 sum_count: 4 epsilon: 0.01
episode: 11 local_step: 1440 global_step: 15840 sum_rewards: -1.2000000000000013 sum_count: 12 epsilon: 0.01
...
episode: 99 local_step: 1440 global_step: 141720 sum_rewards: 1.1999999999999993 sum_count: 26 epsilon: 0.01
episode: 100 local_step: 1380 global_step: 143100 sum_rewards: -4.400000000000001 sum_count: 20 epsilon: 0.01
episode: 101 local_step: 1440 global_step: 144540 sum_rewards: -1.0 sum_count: 7 epsilon: 0.01
...
episode: 199 local_step: 1440 global_step: 284130 sum_rewards: -1.6000000000000008 sum_count: 16 epsilon: 0.01
episode: 200 local_step: 1440 global_step: 285570 sum_rewards: -4.000000000000001 sum_count: 20 epsilon: 0.01
episode: 201 local_step: 1396 global_step: 286966 sum_rewards: -14.79999999999999 sum_count: 90 epsilon: 0.01
...
episode: 303 local_step: 1440 global_step: 432946 sum_rewards: -6.600000000000004 sum_count: 91 epsilon: 0.01
episode: 304 local_step: 1440 global_step: 434386 sum_rewards: -3.000000000000001 sum_count: 33 epsilon: 0.01

このモデルを評価すると、常にロングを出し続けるような学習をしているようです。長めのトレンドにのっかる戦略なんでしょうか???
2015年2月〜2016年5月のデータを使った学習させたのですが、この期間は通算ではドル安でなのでそれもおかしいそうです。
学習を1日データ単位(7:00〜)にしたのが影響している可能性もありますし、やはりランダムウォークな動きで予測不可能なものなのかもしれません。

もう少し長い足で試してみるか、異常値検出的なやり方か、いろいろ試すしてみる方法はありますが、答えがあるかも含めてやっぱりわかりませんね