Lightning-AI · tchaton · Jul 21, 2021 · Jul 20, 2021 · Jul 20, 2021 · Jul 20, 2021
@@ -493,6 +493,9 @@ The format is based on [Keep a Changelog](http://keepachangelog.com/en/1.0.0/).
 - Fixed clearing dataloader references before attaching new dataloaders in consecutive `Trainer.{fit,validate,test,predict}´ runs ([#8442](https://github.com/PyTorchLightning/pytorch-lightning/pull/8442))
 
 
+- Fixed reduce memory leaks on GPU by moving `optimizer_states` and `ResultCollection extras` to `cpu` ([#8490](https://github.com/PyTorchLightning/pytorch-lightning/pull/8490))
+
+
 ## [1.3.8] - 2021-07-01
 
 ### Fixed

@@ -13,11 +13,13 @@
 # limitations under the License.
 import logging
 import os
+from typing import Any, Dict, Mapping
 
 import torch
 
 import pytorch_lightning as pl
 from pytorch_lightning.accelerators.accelerator import Accelerator
+from pytorch_lightning.utilities.apply_func import apply_to_collection
 from pytorch_lightning.utilities.exceptions import MisconfigurationException
 
 _log = logging.getLogger(__name__)
@@ -52,3 +54,14 @@ def set_nvidia_flags(local_rank: int) -> None:
         all_gpu_ids = ",".join([str(x) for x in range(torch.cuda.device_count())])
         devices = os.getenv("CUDA_VISIBLE_DEVICES", all_gpu_ids)
         _log.info(f"LOCAL_RANK: {local_rank} - CUDA_VISIBLE_DEVICES: [{devices}]")
+
+    def teardown(self) -> None:
+        super().teardown()
+
+        for optimizer in self.optimizers:
+            for k, v in optimizer.state.items():
+                if isinstance(v, Mapping):
+                    optimizer.state[k] = {
+                        n: value.cpu() if isinstance(value, torch.Tensor) else value
+                        for n, value in v.items()
+                    }
diff --git a/pytorch_lightning/loops/batch/training_batch_loop.py b/pytorch_lightning/loops/batch/training_batch_loop.py
@@ -30,7 +30,7 @@
 from pytorch_lightning.trainer.progress import OptimizationProgress
 from pytorch_lightning.trainer.supporters import TensorRunningAccum
 from pytorch_lightning.utilities import AMPType, AttributeDict, DeviceType, grad_norm
-from pytorch_lightning.utilities.apply_func import apply_to_collection
+from pytorch_lightning.utilities.apply_func import apply_to_collection, move_data_to_device
 from pytorch_lightning.utilities.exceptions import MisconfigurationException
 from pytorch_lightning.utilities.finite_checks import detect_nan_parameters
 from pytorch_lightning.utilities.imports import _TPU_AVAILABLE
@@ -308,6 +308,9 @@ def _training_step(
                 training_step_output = self.trainer.accelerator.training_step(step_kwargs)
                 self.trainer.accelerator.post_training_step()
 
+                # free memory
+                del step_kwargs
+
             training_step_output = self.trainer.call_hook("training_step_end", training_step_output)
 
             self._check_training_step_output(training_step_output)

@@ -605,6 +605,9 @@ def to_(item: Union[torch.Tensor, Metric], *args: Any, **kwargs: Any) -> Union[t
         if self.minimize is not None:
             self.minimize = self.minimize.to(*args, **kwargs)
         self._batch_size = self._batch_size.to(*args, **kwargs)
+
+        self['_extra'] = apply_to_collection(self.extra, (torch.Tensor), to_, *args, **kwargs)
+
         if 'device' in kwargs:
             self.device = kwargs['device']
         return self

@@ -1178,10 +1178,13 @@ def _call_teardown_hook(self, model: 'pl.LightningModule') -> None:
 
         if self.datamodule is not None:
             self.datamodule.teardown(stage=fn)
+
         self.profiler.teardown(stage=fn)
         self.teardown(stage=fn)
         model.teardown(stage=fn)
 
+        self._active_loop.teardown()
+
         model._current_fx_name = None
         model._current_dataloader_idx = None
         # these could have become stale if metrics are defined in `setup`

@@ -17,7 +17,8 @@
 import pickle
 import sys
 from argparse import Namespace
-from copy import deepcopy
+from copy import _deepcopy_dispatch, deepcopy
+from enum import Enum
 from pathlib import Path
 from unittest.mock import ANY, call, patch
 
@@ -36,9 +37,10 @@
 from pytorch_lightning.loggers import TensorBoardLogger
 from pytorch_lightning.overrides.distributed import IndexBatchSamplerWrapper, UnrepeatedDistributedSampler
 from pytorch_lightning.plugins import DDPSpawnPlugin
-from pytorch_lightning.trainer.states import TrainerFn
+from pytorch_lightning.trainer.states import RunningStage, TrainerFn
 from pytorch_lightning.utilities import DeviceType, DistributedType
 from pytorch_lightning.utilities.cloud_io import load as pl_load
+from pytorch_lightning.utilities.enums import LightningEnum
 from pytorch_lightning.utilities.exceptions import DeadlockDetectedException, MisconfigurationException
 from pytorch_lightning.utilities.seed import seed_everything
 from tests.base import EvalModelTemplate
@@ -1969,3 +1971,49 @@ def training_step(self, batch, batch_idx):
     # simulate random failure in training_step on rank 0
     with pytest.raises(DeadlockDetectedException, match="CustomException"):
         trainer.fit(model)
+
+
+@RunIf(min_gpu=1)
+def test_multiple_trainer_constant_memory_allocated(tmpdir):
+    """
+    This tests ensures calling the trainer several times doesn't increase memory allocated.
+    """
+
+    class TestModel(BoringModel):
+
+        def __init__(self):
+            super().__init__()
+            self._example_input_array = torch.zeros((2, 32))
+
+        @property
+        def example_input_array(self):
+            return self._example_input_array
+
+        def configure_optimizers(self):
+            optimizer = torch.optim.Adam(self.layer.parameters(), lr=0.1)
+            lr_scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=1)
+            return [optimizer], [lr_scheduler]
+
+    initial = torch.cuda.memory_allocated(0)
+
+    model = TestModel()
+    trainer_kwargs = dict(default_root_dir=tmpdir, fast_dev_run=True, gpus=1, accelerator="ddp")
+    trainer = Trainer(**trainer_kwargs)
+    trainer.fit(model)
+
+    assert model._example_input_array.device == torch.device("cpu")
+    assert list(trainer.optimizers[0].state.values())[0]["exp_avg_sq"].device == torch.device("cpu")
+    assert trainer.optimizers[0].state
+
+    before = torch.cuda.memory_allocated(0)
+    deepcopy(trainer)
+    after = torch.cuda.memory_allocated(0)
+    torch.cuda.empty_cache()
+    assert before == after
+
+    trainer_2 = Trainer(**trainer_kwargs)
+    trainer_2.fit(model)
+    after_2 = torch.cuda.memory_allocated(0)
+
+    # todo: (tchaton) Still some memory leaks, could not find the source.
+    assert initial + 2048 == before + 1024 == after_2