pytorch · vmoens · Sep 26, 2022 · Sep 26, 2022 · Sep 26, 2022 · vmoens
diff --git a/torchrl/record/recorder.py b/torchrl/record/recorder.py
@@ -169,7 +169,7 @@ def _call(self, td: TensorDictBase) -> TensorDictBase:
         if self.count % self.skip == 0:
             _td = td
             if self.keys_in:
-                _td = td.select(*self.keys_in).clone()
+                _td = td.select(*self.keys_in).to_tensordict()
             self.td.append(_td)
         return td
 

diff --git a/torchrl/trainers/helpers/logger.py b/torchrl/trainers/helpers/logger.py
@@ -24,3 +24,5 @@ class LoggerConfig:
     # number of steps in validation rollouts. " "Default=1000.
     recorder_log_keys: Any = field(default_factory=lambda: ["reward"])
     # Keys to log in the recorder
+    offline_logging: bool = True
+    # If True, Wandb will do the logging offline
diff --git a/torchrl/trainers/loggers/wandb.py b/torchrl/trainers/loggers/wandb.py
@@ -154,6 +154,7 @@ def log_video(self, name: str, video: Tensor, **kwargs) -> None:
                 f"be silenced from now on but the values will keep being incremented."
             )
             step = self._prev_video_step + 1
+        self._prev_video_step = step if step is not None else self._prev_video_step + 1
         self.experiment.log(
             {name: wandb.Video(video, fps=fps, format=format)}, step=step, **kwargs
         )

diff --git a/torchrl/trainers/trainers.py b/torchrl/trainers/trainers.py
@@ -33,7 +33,6 @@
 from torchrl.data.tensordict.tensordict import TensorDictBase, pad
 from torchrl.data.utils import expand_right, DEVICE_TYPING
 from torchrl.envs.common import EnvBase
-from torchrl.envs.transforms import TransformedEnv
 from torchrl.envs.utils import set_exploration_mode
 from torchrl.modules import TensorDictModule
 from torchrl.objectives.costs.common import LossModule
@@ -905,7 +904,7 @@ def __init__(
         frame_skip: int,
         policy_exploration: TensorDictModule,
         recorder: EnvBase,
-        exploration_mode: str = "mean",
+        exploration_mode: str = "random",
         log_keys: Optional[List[str]] = None,
         out_keys: Optional[Dict[str, str]] = None,
         suffix: Optional[str] = None,
@@ -933,12 +932,11 @@ def __init__(
     def __call__(self, batch: TensorDictBase) -> Dict:
         out = None
         if self._count % self.record_interval == 0:
+            torch.cuda.empty_cache()
             with set_exploration_mode(self.exploration_mode):
                 if isinstance(self.policy_exploration, torch.nn.Module):
                     self.policy_exploration.eval()
                 self.recorder.eval()
-                if isinstance(self.recorder, TransformedEnv):
-                    self.recorder.transform.eval()
                 td_record = self.recorder.rollout(
                     policy=self.policy_exploration,
                     max_steps=self.record_frames,