From 21309b69f77ccda55ce0bfd4f7213ceb774124fd Mon Sep 17 00:00:00 2001
From: kengz <kengzwl@gmail.com>
Date: Tue, 4 Apr 2017 20:13:53 -0400
Subject: [PATCH 1/8] rename doubleDQNEpsilonGreedyPolicy properly

---
 rl/policy/epsilon_greedy.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/rl/policy/epsilon_greedy.py b/rl/policy/epsilon_greedy.py
index 5d693bf..43d3582 100644
--- a/rl/policy/epsilon_greedy.py
+++ b/rl/policy/epsilon_greedy.py
@@ -41,7 +41,7 @@ def update(self, sys_vars):
         return self.e
 
 
-class DoubleDQNPolicy(EpsilonGreedyPolicy):
+class DoubleDQNEpsilonGreedyPolicy(EpsilonGreedyPolicy):
 
     '''
     Policy to accompany double dqn agents
@@ -54,7 +54,7 @@ class DoubleDQNPolicy(EpsilonGreedyPolicy):
     def __init__(self, env_spec,
                  init_e=1.0, final_e=0.1, exploration_anneal_episodes=30,
                  **kwargs):  # absorb generic param without breaking
-        super(DoubleDQNPolicy, self).__init__(
+        super(DoubleDQNEpsilonGreedyPolicy, self).__init__(
             env_spec, init_e, final_e,
             exploration_anneal_episodes)
 

From b5324f4a595ef1f29b5272a850908990fc5b822d Mon Sep 17 00:00:00 2001
From: lgraesser <lhgraesser@gmail.com>
Date: Wed, 5 Apr 2017 00:47:03 -0400
Subject: [PATCH 2/8] State reshape fix in action selection

---
 rl/policy/boltzmann.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/rl/policy/boltzmann.py b/rl/policy/boltzmann.py
index 6afcb8f..4c41a24 100644
--- a/rl/policy/boltzmann.py
+++ b/rl/policy/boltzmann.py
@@ -23,7 +23,7 @@ def __init__(self, env_spec,
 
     def select_action(self, state):
         agent = self.agent
-        state = np.reshape(state, (1, state.shape[0]))
+        state = np.expand_dims(state, axis=0)
         Q_state = agent.model.predict(state)[0]  # extract from batch predict
         assert Q_state.ndim == 1
         Q_state = Q_state.astype('float32')  # fix precision nan issue
@@ -60,7 +60,7 @@ def __init__(self, env_spec,
 
     def select_action(self, state):
         agent = self.agent
-        state = np.reshape(state, (1, state.shape[0]))
+        state = np.expand_dims(state, axis=0)
         # extract from batch predict
         Q_state1 = agent.model.predict(state)[0]
         Q_state2 = agent.model_2.predict(state)[0]

From 5ab704ea2fb227d69496ddae4d99e5b263f998b4 Mon Sep 17 00:00:00 2001
From: kengz <kengzwl@gmail.com>
Date: Wed, 5 Apr 2017 07:23:07 -0400
Subject: [PATCH 3/8] fix atari specs

---
 rl/spec/atari_experiment_specs.json | 18 +++++++++---------
 1 file changed, 9 insertions(+), 9 deletions(-)

diff --git a/rl/spec/atari_experiment_specs.json b/rl/spec/atari_experiment_specs.json
index a6587ae..32a923e 100644
--- a/rl/spec/atari_experiment_specs.json
+++ b/rl/spec/atari_experiment_specs.json
@@ -22,7 +22,7 @@
       "auto_architecture":  true,
       "num_hidden_layers" : 3,
       "num_initial_channels" : 8,
-      "mem_size" : 500000
+      "max_mem_len" : 500000
 
     },
     "param_range": {
@@ -41,7 +41,7 @@
     "HyperOptimizer": "GridSearch",
     "Memory": "LinearMemoryWithForgetting",
     "Optimizer": "AdamOptimizer",
-    "Policy": "EpsilonGreedyPolicy",
+    "Policy": "BoltzmannPolicy",
     "PreProcessor": "Atari",
     "param": {
       "train_per_n_new_exp": 4,
@@ -49,17 +49,17 @@
       "lr": 0.001,
       "gamma": 0.99,
       "hidden_layers": [
-        [16, 8, 8, [4, 4]],
-        [32, 4, 4, [2, 2]]
+        [32, 8, 8, [4, 4]],
+        [64, 4, 4, [2, 2]],
+        [64, 3, 3, [1, 1]]
       ],
       "hidden_layers_activation": "relu",
       "exploration_anneal_episodes": 5000,
       "epi_change_lr": 5000,
-      "mem_size" : 500000
+      "max_mem_len" : 500000
     },
     "param_range": {
-      "lr": [0.001, 0.0001],
-      "gamma": [0.97, 0.99]
+      "lr": [0.001, 0.01]
     }
   },
   "breakout_double_dqn": {
@@ -82,7 +82,7 @@
       "hidden_layers_activation": "relu",
       "exploration_anneal_episodes": 5000,
       "epi_change_lr": 5000,
-      "mem_size" : 500000
+      "max_mem_len" : 500000
     },
     "param_range": {
       "lr": [0.001, 0.0001],
@@ -109,7 +109,7 @@
       "hidden_layers_activation": "relu",
       "exploration_anneal_episodes": 10000,
       "epi_change_lr": 10000,
-      "mem_size" : 500000
+      "max_mem_len" : 500000
     },
     "param_range": {
       "lr": [0.001, 0.0001],

From eb69b1eb4b05fe490126832ca68c72e8e0b8ae3d Mon Sep 17 00:00:00 2001
From: kengz <kengzwl@gmail.com>
Date: Wed, 5 Apr 2017 07:41:47 -0400
Subject: [PATCH 4/8] change atari anneal epi

---
 rl/spec/atari_experiment_specs.json | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/rl/spec/atari_experiment_specs.json b/rl/spec/atari_experiment_specs.json
index 32a923e..2003c0d 100644
--- a/rl/spec/atari_experiment_specs.json
+++ b/rl/spec/atari_experiment_specs.json
@@ -17,8 +17,8 @@
         [32, 4, 4, [2, 2]]
       ],
       "hidden_layers_activation": "relu",
-      "exploration_anneal_episodes": 5000,
-      "epi_change_lr": 5000,
+      "exploration_anneal_episodes": 3000,
+      "epi_change_lr": 3000,
       "auto_architecture":  true,
       "num_hidden_layers" : 3,
       "num_initial_channels" : 8,
@@ -54,8 +54,8 @@
         [64, 3, 3, [1, 1]]
       ],
       "hidden_layers_activation": "relu",
-      "exploration_anneal_episodes": 5000,
-      "epi_change_lr": 5000,
+      "exploration_anneal_episodes": 3000,
+      "epi_change_lr": 3000,
       "max_mem_len" : 500000
     },
     "param_range": {
@@ -80,8 +80,8 @@
         [32, 4, 4, [2, 2]]
       ],
       "hidden_layers_activation": "relu",
-      "exploration_anneal_episodes": 5000,
-      "epi_change_lr": 5000,
+      "exploration_anneal_episodes": 3000,
+      "epi_change_lr": 3000,
       "max_mem_len" : 500000
     },
     "param_range": {

From 7d733c9d81c18a8598b999e048aa27fffb3c40e4 Mon Sep 17 00:00:00 2001
From: kengz <kengzwl@gmail.com>
Date: Wed, 5 Apr 2017 07:42:03 -0400
Subject: [PATCH 5/8] refactor RENDER key in problems

---
 rl/experiment.py      |  5 +----
 rl/spec/problems.json | 24 ------------------------
 2 files changed, 1 insertion(+), 28 deletions(-)

diff --git a/rl/experiment.py b/rl/experiment.py
index cde6dba..3d85013 100644
--- a/rl/experiment.py
+++ b/rl/experiment.py
@@ -102,10 +102,7 @@ def init_sys_vars(self):
         sys_vars = PROBLEMS[self.problem]
         if args.max_epis >= 0:
             sys_vars['MAX_EPISODES'] = args.max_epis
-        if not args.render:
-            sys_vars['RENDER'] = False
-        if environ.get('CI'):
-            sys_vars['RENDER'] = False
+        sys_vars['RENDER'] = (not args.param_selection and args.render)
         self.sys_vars = sys_vars
         self.reset_sys_vars()
         return self.sys_vars
diff --git a/rl/spec/problems.json b/rl/spec/problems.json
index ad8d446..1dde56d 100644
--- a/rl/spec/problems.json
+++ b/rl/spec/problems.json
@@ -1,167 +1,143 @@
 {
   "DevCartPole-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "CartPole-v0",
     "SOLVED_MEAN_REWARD": 195.0,
     "MAX_EPISODES": 4,
     "REWARD_MEAN_LEN": 100
   },
   "TestPassCartPole-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "CartPole-v0",
     "SOLVED_MEAN_REWARD": 50.0,
     "MAX_EPISODES": 20,
     "REWARD_MEAN_LEN": 100
   },
   "CartPole-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "CartPole-v0",
     "SOLVED_MEAN_REWARD": 195.0,
     "MAX_EPISODES": 250,
     "REWARD_MEAN_LEN": 100
   },
   "CartPole-v1": {
-    "RENDER": true,
     "GYM_ENV_NAME": "CartPole-v1",
     "SOLVED_MEAN_REWARD": 475.0,
     "MAX_EPISODES": 500,
     "REWARD_MEAN_LEN": 100
   },
   "Acrobot-v1": {
-    "RENDER": true,
     "GYM_ENV_NAME": "Acrobot-v1",
     "SOLVED_MEAN_REWARD": null,
     "MAX_EPISODES": 600,
     "REWARD_MEAN_LEN": 100
   },
   "MountainCar-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "MountainCar-v0",
     "SOLVED_MEAN_REWARD": -110.0,
     "MAX_EPISODES": 1000,
     "REWARD_MEAN_LEN": 100
   },
   "MountainCarContinuous-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "MountainCarContinuous-v0",
     "SOLVED_MEAN_REWARD": 90.0,
     "MAX_EPISODES": 5000,
     "REWARD_MEAN_LEN": 100
   },
   "Pendulum-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "Pendulum-v0",
     "SOLVED_MEAN_REWARD": null,
     "MAX_EPISODES": 1000,
     "REWARD_MEAN_LEN": 100
   },
   "LunarLander-v2": {
-    "RENDER": true,
     "GYM_ENV_NAME": "LunarLander-v2",
     "SOLVED_MEAN_REWARD": 200.0,
     "MAX_EPISODES": 600,
     "REWARD_MEAN_LEN": 100
   },
   "LunarLanderContinuous-v2": {
-    "RENDER": true,
     "GYM_ENV_NAME": "LunarLanderContinuous-v2",
     "SOLVED_MEAN_REWARD": 200.0,
     "MAX_EPISODES": 800,
     "REWARD_MEAN_LEN": 100
   },
   "BipedalWalker-v2": {
-    "RENDER": true,
     "GYM_ENV_NAME": "BipedalWalker-v2",
     "SOLVED_MEAN_REWARD": 300.0,
     "MAX_EPISODES": 5000,
     "REWARD_MEAN_LEN": 100
   },
   "BipedalWalkerHardcore-v2": {
-    "RENDER": true,
     "GYM_ENV_NAME": "BipedalWalkerHardcore-v2",
     "SOLVED_MEAN_REWARD": 300.0,
     "MAX_EPISODES": 5000,
     "REWARD_MEAN_LEN": 100
   },
   "CarRacing-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "CarRacing-v0",
     "SOLVED_MEAN_REWARD": 900.0,
     "MAX_EPISODES": 5000,
     "REWARD_MEAN_LEN": 100
   },
   "AirRaid-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "AirRaid-v0",
     "SOLVED_MEAN_REWARD": null,
     "MAX_EPISODES": 5000,
     "REWARD_MEAN_LEN": 100
   },
   "Alien-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "Alien-v0",
     "SOLVED_MEAN_REWARD": null,
     "MAX_EPISODES": 5000,
     "REWARD_MEAN_LEN": 100
   },
   "Assault-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "Assault-v0",
     "SOLVED_MEAN_REWARD": null,
     "MAX_EPISODES": 5000,
     "REWARD_MEAN_LEN": 100
   },
   "Dev-Breakout-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "Breakout-v0",
     "SOLVED_MEAN_REWARD": null,
     "MAX_EPISODES": 1,
     "REWARD_MEAN_LEN": 100
   },
   "Breakout-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "Breakout-v0",
     "SOLVED_MEAN_REWARD": null,
     "MAX_EPISODES": 5000,
     "REWARD_MEAN_LEN": 100
   },
   "MsPacman-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "MsPacman-v0",
     "SOLVED_MEAN_REWARD": null,
     "MAX_EPISODES": 5000,
     "REWARD_MEAN_LEN": 100
   },
   "Pong-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "Pong-v0",
     "SOLVED_MEAN_REWARD": null,
     "MAX_EPISODES": 5000,
     "REWARD_MEAN_LEN": 100
   },
   "Qbert-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "Qbert-v0",
     "SOLVED_MEAN_REWARD": null,
     "MAX_EPISODES": 5000,
     "REWARD_MEAN_LEN": 100
   },
   "SpaceInvader-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "SpaceInvader-v0",
     "SOLVED_MEAN_REWARD": null,
     "MAX_EPISODES": 5000,
     "REWARD_MEAN_LEN": 100
   },
   "FlappyBird-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "FlappyBird-v0",
     "SOLVED_MEAN_REWARD": null,
     "MAX_EPISODES": 1000,
     "REWARD_MEAN_LEN": 100
   },
   "Snake-v0": {
-    "RENDER": true,
     "GYM_ENV_NAME": "Snake-v0",
     "SOLVED_MEAN_REWARD": null,
     "MAX_EPISODES": 1000,

From d61e808b25ebc46ea1daad2de69ce51880e73b8e Mon Sep 17 00:00:00 2001
From: kengz <kengzwl@gmail.com>
Date: Wed, 5 Apr 2017 07:46:15 -0400
Subject: [PATCH 6/8] no render on CI

---
 rl/experiment.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/rl/experiment.py b/rl/experiment.py
index 3d85013..7ad3b73 100644
--- a/rl/experiment.py
+++ b/rl/experiment.py
@@ -103,6 +103,8 @@ def init_sys_vars(self):
         if args.max_epis >= 0:
             sys_vars['MAX_EPISODES'] = args.max_epis
         sys_vars['RENDER'] = (not args.param_selection and args.render)
+        if environ.get('CI'):
+            sys_vars['RENDER'] = False
         self.sys_vars = sys_vars
         self.reset_sys_vars()
         return self.sys_vars

From 4e8c715c47eeaea886fed7ac1842c989d71180ba Mon Sep 17 00:00:00 2001
From: kengz <kengzwl@gmail.com>
Date: Wed, 5 Apr 2017 07:59:16 -0400
Subject: [PATCH 7/8] properly clip_val for boltzmann

---
 rl/policy/boltzmann.py | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/rl/policy/boltzmann.py b/rl/policy/boltzmann.py
index 4c41a24..ef9069b 100644
--- a/rl/policy/boltzmann.py
+++ b/rl/policy/boltzmann.py
@@ -18,7 +18,7 @@ def __init__(self, env_spec,
         self.final_tau = final_tau
         self.tau = self.init_tau
         self.exploration_anneal_episodes = exploration_anneal_episodes
-        self.clip_val = 100000
+        self.clip_val = 500
         log_self(self)
 
     def select_action(self, state):
@@ -28,8 +28,8 @@ def select_action(self, state):
         assert Q_state.ndim == 1
         Q_state = Q_state.astype('float32')  # fix precision nan issue
         Q_state = Q_state - np.amax(Q_state)  # prevent overflow
-        exp_values = np.clip(
-            np.exp(Q_state / self.tau), -self.clip_val, self.clip_val)
+        exp_values = np.exp(
+            np.clip(Q_state / self.tau, -self.clip_val, self.clip_val))
         assert not np.isnan(exp_values).any()
         probs = np.array(exp_values / np.sum(exp_values))
         probs /= probs.sum()  # renormalize to prevent floating pt error
@@ -68,8 +68,8 @@ def select_action(self, state):
         assert Q_state.ndim == 1
         Q_state = Q_state.astype('float32')  # fix precision nan issue
         Q_state = Q_state - np.amax(Q_state)  # prevent overflow
-        exp_values = np.clip(
-            np.exp(Q_state / self.tau), -self.clip_val, self.clip_val)
+        exp_values = np.exp(
+            np.clip(Q_state / self.tau, -self.clip_val, self.clip_val))
         assert not np.isnan(exp_values).any()
         probs = np.array(exp_values / np.sum(exp_values))
         probs /= probs.sum()  # renormalize to prevent floating pt error

From 67d38aba1815d3148db44bc93ffaba2a3b25f257 Mon Sep 17 00:00:00 2001
From: kengz <kengzwl@gmail.com>
Date: Wed, 5 Apr 2017 08:06:02 -0400
Subject: [PATCH 8/8] skip boltzmann breakout ci test until stable

---
 rl/spec/atari_experiment_specs.json | 2 +-
 test/test_advanced.py               | 4 ++++
 2 files changed, 5 insertions(+), 1 deletion(-)

diff --git a/rl/spec/atari_experiment_specs.json b/rl/spec/atari_experiment_specs.json
index 2003c0d..1c1ca7e 100644
--- a/rl/spec/atari_experiment_specs.json
+++ b/rl/spec/atari_experiment_specs.json
@@ -68,7 +68,7 @@
     "HyperOptimizer": "GridSearch",
     "Memory": "LinearMemoryWithForgetting",
     "Optimizer": "AdamOptimizer",
-    "Policy": "EpsilonGreedyPolicy",
+    "Policy": "DoubleDQNBoltzmannPolicy",
     "PreProcessor": "Atari",
     "param": {
       "train_per_n_new_exp": 4,
diff --git a/test/test_advanced.py b/test/test_advanced.py
index 29dfdc0..8056d23 100644
--- a/test/test_advanced.py
+++ b/test/test_advanced.py
@@ -40,11 +40,15 @@ def test_lunar_dqn(cls):
         data_df = run('lunar_dqn')
         assert isinstance(data_df, pd.DataFrame)
 
+    @unittest.skipIf(environ.get('CI'),
+                     "Delay CI test until dev stable")
     @classmethod
     def test_breakout_dqn(cls):
         data_df = run('breakout_dqn')
         assert isinstance(data_df, pd.DataFrame)
 
+    @unittest.skipIf(environ.get('CI'),
+                     "Delay CI test until dev stable")
     @classmethod
     def test_breakout_double_dqn(cls):
         data_df = run('breakout_double_dqn')