Merge pull request #32 from kngwyu/cli-override

kngwyu · web-flow · commit 0e0d51feb842 · 2019-07-08T20:58:34.000+09:00
Add override option to CLI
diff --git a/README.md b/README.md
@@ -67,6 +67,30 @@ E.g., if you want to use two hosts(localhost and anotherhost) and run `ppo_atari
 horovodrun -np 2 -H localhost:1,anotherhost:1 pipenv run python examples/ppo_atari.py train
 ```
 
+## Override configuration from CLI
+Currently, Rainy provides an easy-to-use CLI via [click](https://palletsprojects.com/p/click/).
+You can view its usages by, say,
+```bash
+pipenv run python examples/a2c_cart_pole.py --help
+```
+
+This CLI has a simple data-driven interface.
+I.e., once you fill a config object, then all commands(train, eval, retarain, and etc.) work.
+So you can start experiments easily without copying and pasting, say, argument parser codes.
+
+However, it has a limitation that you cannot add new options.
+
+So Rainy-CLI provides an option named `override`, which executes the given string as a Python code
+with the config object set as `config`.
+
+Example usage:
+```bash
+pipenv run python examples/a2c_cart_pole.py --override='config.grad_clip=0.5; config.nsteps=10' train
+```
+
+If this feature still doesn't satisfy your requirement, you can
+[override subcommands by `ctx.invoke`](https://click.palletsprojects.com/en/7.x/advanced/#invoking-other-commands).
+
 ## Implementation Status
 
 |**Algorithm** |**Multi Worker(Sync)**|**Recurrent**                   |**Discrete Action** |**Continuous Action**|**MPI**           |
diff --git a/examples/a2c_atari.py b/examples/a2c_atari.py
@@ -9,9 +9,9 @@
 from torch.optim import RMSprop
 
 
-def config() -> Config:
+def config(game: str = 'Breakout') -> Config:
     c = Config()
-    c.set_env(lambda: Atari('Breakout', frame_stack=False))
+    c.set_env(lambda: Atari(game, frame_stack=False))
     c.set_optimizer(
         lambda params: RMSprop(params, lr=7e-4, alpha=0.99, eps=1e-5)
     )
@@ -24,7 +24,7 @@ def config() -> Config:
     c.value_loss_weight = 1.0
     c.use_gae = False
     c.max_steps = int(2e7)
-    c.eval_env = Atari('Breakout')
+    c.eval_env = Atari(game)
     c.use_reward_monitor = True
     c.eval_deterministic = False
     c.episode_log_freq = 100
@@ -34,4 +34,4 @@ def config() -> Config:
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), A2cAgent, script_path=os.path.realpath(__file__))
+    cli.run_cli(config, A2cAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/a2c_cart_pole.py b/examples/a2c_cart_pole.py
@@ -23,4 +23,4 @@ def config() -> rainy.Config:
 
 
 if __name__ == '__main__':
-    run_cli(config(), rainy.agents.A2cAgent, script_path=os.path.realpath(__file__))
+    run_cli(config, rainy.agents.A2cAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/a2c_hopper.py b/examples/a2c_hopper.py
@@ -7,9 +7,9 @@
 from torch.optim import Adam
 
 
-def config() -> Config:
+def config(envname: str = 'Hopper') -> Config:
     c = Config()
-    c.set_env(lambda: PyBullet('Hopper'))
+    c.set_env(lambda: PyBullet(envname))
     c.set_net_fn('actor-critic', net.actor_critic.fc_shared(policy=SeparateStdGaussianDist))
     c.set_parallel_env(pybullet_parallel())
     c.max_steps = int(1e6)
@@ -27,4 +27,4 @@ def config() -> Config:
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), A2cAgent, script_path=os.path.realpath(__file__))
+    cli.run_cli(config, A2cAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/acktr_atari.py b/examples/acktr_atari.py
@@ -12,9 +12,9 @@
 }
 
 
-def config() -> Config:
+def config(game: str = 'Breakout') -> Config:
     c = Config()
-    c.set_env(lambda: Atari('Breakout', frame_stack=False))
+    c.set_env(lambda: Atari(game, frame_stack=False))
     c.set_optimizer(kfac.default_sgd(eta_max=0.2))
     c.set_preconditioner(lambda net: kfac.KfacPreConditioner(net, **KFAC_KWARGS))
     c.set_net_fn('actor-critic', net.actor_critic.ac_conv())
@@ -25,7 +25,7 @@ def config() -> Config:
     c.use_gae = True
     c.lr_min = 0.0
     c.max_steps = int(2e7)
-    c.eval_env = Atari('Breakout')
+    c.eval_env = Atari(game)
     c.eval_freq = None
     c.episode_log_freq = 100
     c.use_reward_monitor = True
@@ -34,4 +34,4 @@ def config() -> Config:
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), AcktrAgent, script_path=os.path.realpath(__file__))
+    cli.run_cli(config, AcktrAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/acktr_cart_pole.py b/examples/acktr_cart_pole.py
@@ -31,4 +31,4 @@ def config() -> Config:
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), AcktrAgent, script_path=os.path.realpath(__file__))
+    cli.run_cli(config, AcktrAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/acktr_hopper.py b/examples/acktr_hopper.py
@@ -14,12 +14,12 @@
 }
 
 
-def config() -> Config:
+def config(envname: str = 'Hopper') -> Config:
     c = Config()
     c.max_steps = int(4e5)
     c.nworkers = 12
     c.nsteps = 20
-    c.set_env(lambda: PyBullet('Hopper'))
+    c.set_env(lambda: PyBullet(envname))
     c.set_net_fn('actor-critic', net.actor_critic.fc_shared(policy=SeparateStdGaussianDist))
     c.set_parallel_env(pybullet_parallel())
     c.set_optimizer(kfac.default_sgd(eta_max=0.1))
@@ -34,4 +34,4 @@ def config() -> Config:
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), AcktrAgent, script_path=os.path.realpath(__file__))
+    cli.run_cli(config, AcktrAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/aoc_atari.py b/examples/aoc_atari.py
@@ -9,9 +9,9 @@
 from torch.optim import RMSprop
 
 
-def config() -> Config:
+def config(game: str = 'Breakout') -> Config:
     c = Config()
-    c.set_env(lambda: Atari('Breakout', frame_stack=False))
+    c.set_env(lambda: Atari(game, frame_stack=False))
     c.set_optimizer(
         lambda params: RMSprop(params, lr=7e-4, alpha=0.99, eps=1e-5)
     )
@@ -24,7 +24,7 @@ def config() -> Config:
     c.value_loss_weight = 1.0
     c.use_gae = False
     c.max_steps = int(2e7)
-    c.eval_env = Atari('Breakout')
+    c.eval_env = Atari(game)
     c.use_reward_monitor = True
     c.eval_deterministic = False
     c.episode_log_freq = 100
@@ -36,4 +36,4 @@ def config() -> Config:
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), AocAgent, script_path=os.path.realpath(__file__))
+    cli.run_cli(config, AocAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/aoc_cart_pole.py b/examples/aoc_cart_pole.py
@@ -23,4 +23,4 @@ def config() -> rainy.Config:
 
 
 if __name__ == '__main__':
-    run_cli(config(), rainy.agents.AocAgent, script_path=os.path.realpath(__file__))
+    run_cli(config, rainy.agents.AocAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/ddqn_atari.py b/examples/ddqn_atari.py
@@ -7,9 +7,9 @@
 from torch.optim import RMSprop
 
 
-def config() -> Config:
+def config(game: str = 'Breakout') -> Config:
     c = Config()
-    c.set_env(lambda: Atari('Breakout'))
+    c.set_env(lambda: Atari(game))
     c.set_optimizer(
         lambda params: RMSprop(params, lr=0.00025, alpha=0.95, eps=0.01, centered=True)
     )
@@ -20,12 +20,12 @@ def config() -> Config:
     c.train_start = 50000
     c.sync_freq = 10000
     c.max_steps = int(2e7)
-    c.eval_env = Atari('Breakout', episodic_life=False)
+    c.eval_env = Atari(game, episodic_life=False)
     c.eval_freq = None
     c.seed = 1
     c.use_reward_monitor = True
     return c
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), DoubleDqnAgent, script_path=os.path.realpath(__file__))
+    cli.run_cli(config, DoubleDqnAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/ddqn_cart_pole.py b/examples/ddqn_cart_pole.py
@@ -11,4 +11,4 @@ def config() -> Config:
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), DoubleDqnAgent, script_path=os.path.realpath(__file__))
+    cli.run_cli(config, DoubleDqnAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/dqn_atari.py b/examples/dqn_atari.py
@@ -7,9 +7,9 @@
 from torch.optim import RMSprop
 
 
-def config() -> Config:
+def config(game: str = 'Breakout') -> Config:
     c = Config()
-    c.set_env(lambda: Atari('Breakout'))
+    c.set_env(lambda: Atari(game))
     c.set_optimizer(
         lambda params: RMSprop(params, lr=0.00025, alpha=0.95, eps=0.01, centered=True)
     )
@@ -20,12 +20,12 @@ def config() -> Config:
     c.train_start = 50000
     c.sync_freq = 10000
     c.max_steps = int(2e7)
-    c.eval_env = Atari('Breakout')
+    c.eval_env = Atari(game)
     c.eval_freq = None
     c.use_reward_monitor = True
     return c
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), DqnAgent, script_path=os.path.realpath(__file__))
+    cli.run_cli(config, DqnAgent, script_path=os.path.realpath(__file__))
 
diff --git a/examples/dqn_cart_pole.py b/examples/dqn_cart_pole.py
@@ -11,4 +11,4 @@ def config() -> Config:
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), DqnAgent, script_path=os.path.realpath(__file__))
+    cli.run_cli(config, DqnAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/ppo_atari.py b/examples/ppo_atari.py
@@ -6,9 +6,9 @@
 from torch.optim import Adam
 
 
-def config() -> Config:
+def config(game: str = 'Breakout') -> Config:
     c = Config()
-    c.set_env(lambda: Atari('Breakout', frame_stack=False))
+    c.set_env(lambda: Atari(game, frame_stack=False))
     #  c.set_net_fn('actor-critic', net.actor_critic.ac_conv(rnn=net.GruBlock))
     c.set_net_fn('actor-critic', net.actor_critic.ac_conv())
     c.set_parallel_env(atari_parallel())
@@ -27,12 +27,12 @@ def config() -> Config:
     c.use_reward_monitor = True
     c.lr_min = None  # set 0.0 if you decrease ppo_clip
     # eval settings
-    c.eval_env = Atari('Breakout')
+    c.eval_env = Atari(game)
     c.episode_log_freq = 100
     c.eval_freq = None
     c.save_freq = None
     return c
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), PpoAgent, script_path=os.path.realpath(__file__))
+    cli.run_cli(config, PpoAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/ppo_cart_pole.py b/examples/ppo_cart_pole.py
@@ -24,4 +24,4 @@ def config() -> rainy.Config:
 
 
 if __name__ == '__main__':
-    run_cli(config(), rainy.agents.PpoAgent, script_path=os.path.realpath(__file__))
+    run_cli(config, rainy.agents.PpoAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/ppo_flicker_atari.py b/examples/ppo_flicker_atari.py
@@ -5,14 +5,14 @@
 import rainy.utils.cli as cli
 
 
-def config() -> rainy.Config:
-    c = ppo_atari.config()
-    c.set_env(lambda: Atari('Breakout', flicker_frame=True, frame_stack=False))
+def config(game: str = 'Breakout') -> rainy.Config:
+    c = ppo_atari.config(game)
+    c.set_env(lambda: Atari(game, flicker_frame=True, frame_stack=False))
     c.set_parallel_env(atari_parallel(frame_stack=False))
     c.set_net_fn('actor-critic', rainy.net.actor_critic.ac_conv(rnn=rainy.net.GruBlock))
-    c.eval_env = Atari('Breakout', flicker_frame=True, frame_stack=True)
+    c.eval_env = Atari(game, flicker_frame=True, frame_stack=True)
     return c
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), rainy.agents.PpoAgent, script_path=realpath(__file__))
+    cli.run_cli(config, rainy.agents.PpoAgent, script_path=realpath(__file__))
diff --git a/examples/ppo_halfcheetah.py b/examples/ppo_halfcheetah.py
@@ -7,9 +7,9 @@
 from torch.optim import Adam
 
 
-def config() -> Config:
+def config(envname: str = 'HalfCheetah') -> Config:
     c = Config()
-    c.set_env(lambda: PyBullet('HalfCheetah'))
+    c.set_env(lambda: PyBullet(envname))
     c.set_net_fn('actor-critic', net.actor_critic.fc_shared(policy=SeparateStdGaussianDist))
     c.set_parallel_env(pybullet_parallel())
     c.set_optimizer(lambda params: Adam(params, lr=3.0e-4, eps=1.0e-4))
@@ -30,4 +30,4 @@ def config() -> Config:
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), PpoAgent, script_path=os.path.realpath(__file__))
+    cli.run_cli(config, PpoAgent, script_path=os.path.realpath(__file__))
diff --git a/examples/ppo_hopper.py b/examples/ppo_hopper.py
@@ -7,11 +7,11 @@
 from torch.optim import Adam
 
 
-def config() -> Config:
+def config(envname: str = 'Hopper') -> Config:
     c = Config()
-    c.set_env(lambda: PyBullet('Hopper'))
+    c.set_env(lambda: PyBullet(envname))
     c.set_net_fn('actor-critic', net.actor_critic.fc_shared(policy=SeparateStdGaussianDist))
-    c.set_parallel_env(pybullet_parallel(normalize_obs=True,normalize_reward=True))
+    c.set_parallel_env(pybullet_parallel(normalize_obs=True, normalize_reward=True))
     c.set_optimizer(lambda params: Adam(params, lr=3.0e-4, eps=1.0e-4))
     c.max_steps = int(2e6)
     c.grad_clip = 0.5
@@ -30,4 +30,4 @@ def config() -> Config:
 
 
 if __name__ == '__main__':
-    cli.run_cli(config(), PpoAgent, script_path=os.path.realpath(__file__))
+    cli.run_cli(config, PpoAgent, script_path=os.path.realpath(__file__))
diff --git a/rainy/utils/cli.py b/rainy/utils/cli.py

Original file line number	Diff line number	Diff line change
`@@ -23,4 +23,4 @@ def config() -> rainy.Config:`
`23`	`23`
`24`	`24`
`25`	`25`	`if __name__ == '__main__':`
`26`		`- run_cli(config(), rainy.agents.A2cAgent, script_path=os.path.realpath(__file__))`
	`26`	`+ run_cli(config, rainy.agents.A2cAgent, script_path=os.path.realpath(__file__))`
Original file line number	Diff line number	Diff line change
`@@ -31,4 +31,4 @@ def config() -> Config:`
`31`	`31`
`32`	`32`
`33`	`33`	`if __name__ == '__main__':`
`34`		`- cli.run_cli(config(), AcktrAgent, script_path=os.path.realpath(__file__))`
	`34`	`+ cli.run_cli(config, AcktrAgent, script_path=os.path.realpath(__file__))`
Original file line number	Diff line number	Diff line change
`@@ -11,4 +11,4 @@ def config() -> Config:`
`11`	`11`
`12`	`12`
`13`	`13`	`if __name__ == '__main__':`
`14`		`- cli.run_cli(config(), DoubleDqnAgent, script_path=os.path.realpath(__file__))`
	`14`	`+ cli.run_cli(config, DoubleDqnAgent, script_path=os.path.realpath(__file__))`
Original file line number	Diff line number	Diff line change
`@@ -24,4 +24,4 @@ def config() -> rainy.Config:`
`24`	`24`
`25`	`25`
`26`	`26`	`if __name__ == '__main__':`
`27`		`- run_cli(config(), rainy.agents.PpoAgent, script_path=os.path.realpath(__file__))`
	`27`	`+ run_cli(config, rainy.agents.PpoAgent, script_path=os.path.realpath(__file__))`