Merge branch 'release/0.8.5'

0xangelo · Jun 25, 2020 · ec2d4b8 · ec2d4b8
2 parents 49c6564 + b1b2cb9
commit ec2d4b8
Show file tree

Hide file tree

Showing 14 changed files with 275 additions and 86 deletions.
diff --git a/.github/workflows/poetry-publish.yml b/.github/workflows/poetry-publish.yml
@@ -4,8 +4,7 @@
 name: Poetry publish
 
 on:
-  push: 
-    branches: master
+  push:
     tags:
       - 'v*.*.*'
 

diff --git a/examples/MAPO/swingup.py b/examples/MAPO/swingup.py
@@ -28,7 +28,7 @@ def get_config():
             # model-aware deterministic policy gradient
             "model_samples": 1,
             # Whether to use the environment's true model to sample states
-            "true_model": True,
+            "true_model": False,
         },
         # PyTorch optimizers to use
         "torch_optimizer": {

diff --git a/poetry.lock b/poetry.lock
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "raylab"
-version = "0.8.4"
+version = "0.8.5"
 description = "Reinforcement learning algorithms in RLlib and PyTorch."
 authors = ["Ângelo Gregório Lovatto <[email protected]>"]
 license = "MIT"
@@ -39,6 +39,9 @@ mypy = "^0.782"
 coverage = "^5.1"
 ipython = "^7.15.0"
 poetry-version = "^0.1.5"
+pytest-mock = "^3.1.1"
+pytest-sugar = "^0.9.3"
+auto-changelog = "^0.5.1"
 
 [tool.poetry.scripts]
 raylab = "raylab.cli:raylab"

diff --git a/raylab/agents/mage/policy.py b/raylab/agents/mage/policy.py
@@ -41,20 +41,10 @@ def get_default_config():
 
         return DEFAULT_CONFIG
 
-    def set_reward_from_config(self, *args, **kwargs):
-        super().set_reward_from_config(*args, **kwargs)
+    def _set_reward_hook(self):
         self.loss_critic.set_reward_fn(self.reward_fn)
 
-    def set_reward_from_callable(self, *args, **kwargs):
-        super().set_reward_from_callable(*args, **kwargs)
-        self.loss_critic.set_reward_fn(self.reward_fn)
-
-    def set_termination_from_config(self, *args, **kwargs):
-        super().set_termination_from_config(*args, **kwargs)
-        self.loss_critic.set_termination_fn(self.termination_fn)
-
-    def set_termination_from_callable(self, *args, **kwargs):
-        super().set_termination_from_callable(*args, **kwargs)
+    def _set_termination_hook(self):
         self.loss_critic.set_termination_fn(self.termination_fn)
 
     def make_optimizers(self):

diff --git a/raylab/agents/mapo/policy.py b/raylab/agents/mapo/policy.py
@@ -33,32 +33,17 @@ def __init__(self, observation_space, action_space, config):
         self.loss_actor.grad_estimator = self.config["losses"]["grad_estimator"]
 
     @override(EnvFnMixin)
-    def set_reward_from_config(self, *args, **kwargs):
-        super().set_reward_from_config(*args, **kwargs)
+    def _set_reward_hook(self):
         self.loss_model.set_reward_fn(self.reward_fn)
         self.loss_actor.set_reward_fn(self.reward_fn)
 
     @override(EnvFnMixin)
-    def set_termination_from_config(self, *args, **kwargs):
-        super().set_termination_from_config(*args, **kwargs)
+    def _set_termination_hook(self):
         self.loss_model.set_termination_fn(self.termination_fn)
         self.loss_actor.set_termination_fn(self.termination_fn)
 
     @override(EnvFnMixin)
-    def set_reward_from_callable(self, *args, **kwargs):
-        super().set_reward_from_callable(*args, **kwargs)
-        self.loss_model.set_reward_fn(self.reward_fn)
-        self.loss_actor.set_reward_fn(self.reward_fn)
-
-    @override(EnvFnMixin)
-    def set_termination_from_callable(self, *args, **kwargs):
-        super().set_termination_from_callable(*args, **kwargs)
-        self.loss_model.set_termination_fn(self.termination_fn)
-        self.loss_actor.set_termination_fn(self.termination_fn)
-
-    @override(EnvFnMixin)
-    def set_dynamics_from_callable(self, *args, **kwargs):
-        super().set_dynamics_from_callable(*args, **kwargs)
+    def _set_dynamics_hook(self):
         self.loss_actor = DAPO(self.dynamics_fn, self.module.actor, self.module.critics)
         self.loss_actor.gamma = self.config["gamma"]
         self.loss_actor.dynamics_samples = self.config["losses"]["model_samples"]

diff --git a/raylab/agents/svg/inf/policy.py b/raylab/agents/svg/inf/policy.py
@@ -28,8 +28,7 @@ def __init__(self, observation_space, action_space, config):
         )
 
     @override(EnvFnMixin)
-    def set_reward_from_config(self, env_name: str, env_config: dict):
-        super().set_reward_from_config(env_name, env_config)
+    def _set_reward_hook(self):
         self.loss_actor.set_reward_fn(self.reward_fn)
 
     @staticmethod

diff --git a/raylab/agents/svg/one/policy.py b/raylab/agents/svg/one/policy.py
@@ -29,8 +29,7 @@ def __init__(self, *args, **kwargs):
         self.loss_actor.gamma = self.config["gamma"]
 
     @override(EnvFnMixin)
-    def set_reward_from_config(self, env_name: str, env_config: dict):
-        super().set_reward_from_config(env_name, env_config)
+    def _set_reward_hook(self):
         self.loss_actor.set_reward_fn(self.reward_fn)
 
     @staticmethod

diff --git a/raylab/agents/svg/soft/policy.py b/raylab/agents/svg/soft/policy.py
@@ -43,8 +43,7 @@ def __init__(self, observation_space, action_space, config):
         )
 
     @override(EnvFnMixin)
-    def set_reward_from_config(self, env_name: str, env_config: dict):
-        super().set_reward_from_config(env_name, env_config)
+    def _set_reward_hook(self):
         self.loss_actor.set_reward_fn(self.reward_fn)
 
     @staticmethod
-Original file line number
+Diff line change
@@ Expand Up / @@ -4,8 +4,7 @@ @@
     name: Poetry publish
     on:
-      push:
-        branches: master
+      push:
         tags:
           - 'v*.*.*'
@@ Expand Down @@