Merge pull request #2 from schroederdewitt/vdn_s

schroederdewitt · web-flow · commit 554258c6e7bf · 2020-07-02T08:50:09.000+01:00
bug fix for state shape
diff --git a/algos_tf14/vdnagent.py b/algos_tf14/vdnagent.py
@@ -70,7 +70,10 @@ def __init__(self, sess, base_name, observation_space, action_space, config, log
         self.atoms_num = self.config['atoms_num']
         assert self.atoms_num == 1
 
-        self.state_shape = (self.env.env_info['state_shape'],)
+        if central_state_space is not None:
+            self.state_shape = central_state_space.shape
+        else:
+            raise NotImplementedError("central_state_space input to VDN is NONE!")
         self.n_agents = self.env.env_info['n_agents']
 
         if not self.is_prioritized:
@@ -225,6 +228,7 @@ def play_steps(self, steps, epsilon=0.0):
             # Same reward, done for all agents
             reward = reward[0]
             is_done = all(is_done)
+            state = state[0]
 
             self.step_count += 1
             self.total_reward += reward
diff --git a/configs/vdn_3s5z_vs_3s6z.yaml b/configs/vdn_3s5z_vs_3s6z.yaml
diff --git a/configs/vdn_3s_vs_5z.yaml b/configs/vdn_3s_vs_5z.yaml
diff --git a/configs/whirl_baselines/vdn_3s5z_vs_3s6z.yaml b/configs/whirl_baselines/vdn_3s5z_vs_3s6z.yaml
@@ -81,4 +81,5 @@ params:
       name: 3s5z_vs_3s6z
       frames: 4
       transpose: True
-      random_invalid_step: False
+      random_invalid_step: False
+      use_central_state: True
diff --git a/configs/whirl_baselines/vdn_3s_vs_5z.yaml b/configs/whirl_baselines/vdn_3s_vs_5z.yaml
@@ -81,4 +81,5 @@ params:
       name: 3s_vs_5z
       frames: 4
       transpose: True
-      random_invalid_step: False
+      random_invalid_step: False
+      use_central_state: True
diff --git a/configs/whirl_baselines/vdn_MMM2.yaml b/configs/whirl_baselines/vdn_MMM2.yaml
@@ -82,3 +82,4 @@ params:
       frames: 4
       transpose: True
       random_invalid_step: False
+      use_central_state: True
diff --git a/envs/smac_env.py b/envs/smac_env.py
@@ -49,9 +49,6 @@ def _preproc_actions(self, actions):
     def get_state(self):
         return self.env.get_state()
 
-    def get_state(self):
-        return self.env.get_state()
-
     def step(self, actions):
         fixed_rewards = None