automl · PhMueller · Oct 8, 2021 · Oct 1, 2021 · Oct 7, 2021
diff --git a/changelog.md b/changelog.md
@@ -1,5 +1,8 @@
 # 0.0.10
-
+  * Cartpole Benchmark Version 0.0.4:
+    Fix: Pass the hp `entropy_regularization` to the PPO Agent. 
+    Set the lower limit of an hyperparameter from 0 to 10e-7 (0 is invalid.)
+
 # 0.0.9
   * Add new Benchmarks: Tabular Benchmarks.
     Provided by @Neeratyoy. 

diff --git a/hpobench/benchmarks/rl/cartpole.py b/hpobench/benchmarks/rl/cartpole.py
@@ -1,6 +1,12 @@
 """
 Changelog:
 ==========
+0.0.4
+* Set the lower bound of the hp `likelihood_ratio_clipping` to a small number instead of 0.
+  The PPO agent does not accept a value of 0 here and will raise an error.
+* Pass the hp `entropy_regularization` to the agent.
+* Add the hp `entropy_regularization` to the ConfigSpace of the CartpoleFull Benchmark.
+
 0.0.3
 * New container release due to a general change in the communication between container and HPOBench.
   Works with HPOBench >= v0.0.8
@@ -30,7 +36,7 @@
 from hpobench.abstract_benchmark import AbstractBenchmark  # noqa: E402
 from hpobench.util import rng_helper  # noqa: E402
 
-__version__ = '0.0.3'
+__version__ = '0.0.4'
 
 logger = logging.getLogger('CartpoleBenchmark')
 tf.logging.set_verbosity(tf.logging.ERROR)
@@ -184,7 +190,8 @@ def objective_function(self, configuration: Union[Dict, CS.Configuration],
                                                                "learning_rate":
                                                                    configuration["baseline_learning_rate"]},
                                                  "num_steps": configuration["baseline_optimization_steps"]},
-                             likelihood_ratio_clipping=configuration["likelihood_ratio_clipping"]
+                             likelihood_ratio_clipping=configuration["likelihood_ratio_clipping"],
+                             entropy_regularization=configuration["entropy_regularization"],
                              )
 
             def episode_finished(record):
@@ -279,7 +286,8 @@ def get_configuration_space(seed: Union[int, None] = None) -> CS.ConfigurationSp
             CS.UniformIntegerHyperparameter("batch_size", lower=8, default_value=64, upper=256, log=True),
             CS.UniformFloatHyperparameter("learning_rate", lower=1e-7, default_value=1e-3, upper=1e-1, log=True),
             CS.UniformFloatHyperparameter("discount", lower=0, default_value=.99, upper=1),
-            CS.UniformFloatHyperparameter("likelihood_ratio_clipping", lower=0, default_value=.2, upper=1),
+            CS.UniformFloatHyperparameter("likelihood_ratio_clipping", lower=1e-7, default_value=.2, upper=1),
+            CS.UniformFloatHyperparameter("entropy_regularization", lower=0, default_value=0.01, upper=1),
             CS.CategoricalHyperparameter("activation_1", ["tanh", "relu"]),
             CS.CategoricalHyperparameter("activation_2", ["tanh", "relu"]),
             CS.CategoricalHyperparameter("optimizer_type", ["adam", "rmsprop"]),
@@ -327,8 +335,8 @@ def get_configuration_space(seed: Union[int, None] = None) -> CS.ConfigurationSp
             CS.UniformIntegerHyperparameter("batch_size", lower=8, default_value=64, upper=256, log=True),
             CS.UniformFloatHyperparameter("learning_rate", lower=1e-7, default_value=1e-3, upper=1e-1, log=True),
             CS.UniformFloatHyperparameter("discount", lower=0, default_value=.99, upper=1),
-            CS.UniformFloatHyperparameter("likelihood_ratio_clipping", lower=0, default_value=.2, upper=1),
-            CS.UniformFloatHyperparameter("entropy_regularization", lower=0, default_value=0.01, upper=1)
+            CS.UniformFloatHyperparameter("likelihood_ratio_clipping", lower=1e-7, default_value=.2, upper=1),
+            CS.UniformFloatHyperparameter("entropy_regularization", lower=0, default_value=0.01, upper=1),
         ])
         return cs
 

diff --git a/hpobench/container/benchmarks/rl/cartpole.py b/hpobench/container/benchmarks/rl/cartpole.py
@@ -10,13 +10,13 @@ class CartpoleReduced(AbstractBenchmarkClient):
     def __init__(self, **kwargs):
         kwargs['benchmark_name'] = kwargs.get('benchmark_name', 'CartpoleReduced')
         kwargs['container_name'] = kwargs.get('container_name', 'cartpole')
-        kwargs['latest'] = kwargs.get('container_tag', '0.0.3')
+        kwargs['latest'] = kwargs.get('container_tag', '0.0.4')
         super(CartpoleReduced, self).__init__(**kwargs)
 
 
 class CartpoleFull(AbstractBenchmarkClient):
     def __init__(self, **kwargs):
         kwargs['benchmark_name'] = kwargs.get('benchmark_name', 'CartpoleFull')
         kwargs['container_name'] = kwargs.get('container_name', 'cartpole')
-        kwargs['latest'] = kwargs.get('container_tag', '0.0.3')
+        kwargs['latest'] = kwargs.get('container_tag', '0.0.4')
         super(CartpoleFull, self).__init__(**kwargs)