diff --git a/docs/release_notes/index.md b/docs/release_notes/index.md
index 4f1e7911e2..ce388ff9e4 100644
--- a/docs/release_notes/index.md
+++ b/docs/release_notes/index.md
@@ -3,6 +3,14 @@
 This is the list of changes to scvi-tools between each release. Full commit history
 is available in the [commit logs](https://github.com/YosefLab/scvi-tools/commits/).
 
+## Version 0.19
+
+```{toctree}
+:maxdepth: 2
+
+v0.19.0
+```
+
 ## Version 0.18
 
 ```{toctree}
diff --git a/docs/release_notes/v0.19.0.md b/docs/release_notes/v0.19.0.md
new file mode 100644
index 0000000000..6e063828b2
--- /dev/null
+++ b/docs/release_notes/v0.19.0.md
@@ -0,0 +1,35 @@
+# New in 0.19.0 (2022-MM-DD)
+
+## Major Changes
+
+-   {class}`~scvi.train.TrainingPlan` allows custom PyTorch optimizers [#1747].
+-   Improvements to {class}`~scvi.train.JaxTrainingPlan` [#1747] [#1749].
+-   {class}`~scvi.module.base.LossRecorder` is deprecated. Please substitute with {class}`~scvi.module.base.LossOutput` [#1749]
+-   All training plans require keyword args after the first positional argument [#1749]
+
+## Minor changes
+
+## Breaking changes
+
+-   {class}`~scvi.module.base.LossRecorder` no longer allows access to dictionaries of values if provided during initialization [#1749].
+
+## Bug Fixes
+
+-   Fix `n_proteins` usage in {class}`~scvi.model.MULTIVI` [#1737].
+-   Remove unused param in {class}`~scvi.model.MULTIVI` [#1741].
+
+## Contributors
+
+-   [@watiss]
+-   [@adamgayoso]
+-   [@martinkim0]
+-   [@marianogabitto]
+
+[#1737]: https://github.com/YosefLab/scvi-tools/pull/1737
+[#1741]: https://github.com/YosefLab/scvi-tools/pull/1737
+[#1747]: https://github.com/YosefLab/scvi-tools/pull/1747
+[#1749]: https://github.com/YosefLab/scvi-tools/pull/1749
+[@watiss]: https://github.com/watiss
+[@adamgayoso]: https://github.com/adamgayoso
+[@martinkim0]: https://github.com/martinkim0
+[@marianogabitto]: https://github.com/marianogabitto
diff --git a/scvi/model/base/_jaxmixin.py b/scvi/model/base/_jaxmixin.py
index cf80ebef06..7b6bb1e238 100644
--- a/scvi/model/base/_jaxmixin.py
+++ b/scvi/model/base/_jaxmixin.py
@@ -21,7 +21,7 @@ def train(
         train_size: float = 0.9,
         validation_size: Optional[float] = None,
         batch_size: int = 128,
-        lr: float = 1e-3,
+        plan_kwargs: Optional[dict] = None,
         **trainer_kwargs,
     ):
         """
@@ -43,6 +43,9 @@ def train(
             Minibatch size to use during training.
         lr
             Learning rate to use during training.
+        plan_kwargs
+            Keyword args for :class:`~scvi.train.JaxTrainingPlan`. Keyword arguments passed to
+            `train()` will overwrite values present in `plan_kwargs`, when appropriate.
         **trainer_kwargs
             Other keyword args for :class:`~scvi.train.Trainer`.
         """
@@ -73,10 +76,9 @@ def train(
             use_gpu=False,
             iter_ndarray=True,
         )
+        plan_kwargs = plan_kwargs if isinstance(plan_kwargs, dict) else dict()
 
-        self.training_plan = JaxTrainingPlan(
-            self.module, optim_kwargs=dict(learning_rate=lr)
-        )
+        self.training_plan = JaxTrainingPlan(self.module, **plan_kwargs)
         if "callbacks" not in trainer_kwargs.keys():
             trainer_kwargs["callbacks"] = []
         trainer_kwargs["callbacks"].append(JaxModuleInit())
diff --git a/scvi/train/_trainingplans.py b/scvi/train/_trainingplans.py
index bd90b70be0..21ba5c28a2 100644
--- a/scvi/train/_trainingplans.py
+++ b/scvi/train/_trainingplans.py
@@ -1,6 +1,6 @@
 from functools import partial
 from inspect import getfullargspec, signature
-from typing import Callable, Dict, Optional, Union
+from typing import Callable, Dict, Iterable, Optional, Union
 
 import jax
 import jax.numpy as jnp
@@ -92,15 +92,19 @@ class TrainingPlan(pl.LightningModule):
     ----------
     module
         A module instance from class ``BaseModuleClass``.
+    optimizer
+        One of "Adam" (:class:`~torch.optim.Adam`), "AdamW" (:class:`~torch.optim.AdamW`),
+        or "Custom", which requires a custom optimizer creator callable to be passed via
+        `optimizer_creator`.
+    optimizer_creator
+        A callable taking in parameters and returning a :class:`~torch.optim.Optimizer`.
+        This allows using any PyTorch optimizer with custom hyperparameters.
     lr
-
-        Learning rate used for optimization.
+        Learning rate used for optimization, when `optimizer_creator` is None.
     weight_decay
-        Weight decay used in optimizatoin.
+        Weight decay used in optimization, when `optimizer_creator` is None.
     eps
-        eps used for optimization.
-    optimizer
-        One of "Adam" (:class:`~torch.optim.Adam`), "AdamW" (:class:`~torch.optim.AdamW`).
+        eps used for optimization, when `optimizer_creator` is None.
     n_steps_kl_warmup
         Number of training steps (minibatches) to scale weight on KL divergences from
         `min_kl_weight` to `max_kl_weight`. Only activated when `n_epochs_kl_warmup` is
@@ -133,10 +137,14 @@ class TrainingPlan(pl.LightningModule):
     def __init__(
         self,
         module: BaseModuleClass,
+        *,
+        optimizer: Literal["Adam", "AdamW", "Custom"] = "Adam",
+        optimizer_creator: Optional[
+            Callable[[Iterable[torch.Tensor]], torch.optim.Optimizer]
+        ] = None,
         lr: float = 1e-3,
         weight_decay: float = 1e-6,
         eps: float = 0.01,
-        optimizer: Literal["Adam", "AdamW"] = "Adam",
         n_steps_kl_warmup: Union[int, None] = None,
         n_epochs_kl_warmup: Union[int, None] = 400,
         reduce_lr_on_plateau: bool = False,
@@ -168,6 +176,12 @@ def __init__(
         self.loss_kwargs = loss_kwargs
         self.min_kl_weight = min_kl_weight
         self.max_kl_weight = max_kl_weight
+        self.optimizer_creator = optimizer_creator
+
+        if self.optimizer_name == "Custom" and self.optimizer_creator is None:
+            raise ValueError(
+                "If optimizer is 'Custom', `optimizer_creator` must be provided."
+            )
 
         self._n_obs_training = None
         self._n_obs_validation = None
@@ -338,18 +352,35 @@ def validation_step(self, batch, batch_idx):
         self.log("validation_loss", scvi_loss.loss, on_epoch=True)
         self.compute_and_log_metrics(scvi_loss, self.val_metrics, "validation")
 
-    def configure_optimizers(self):
-        """Configure optimizers for the model."""
-        params = filter(lambda p: p.requires_grad, self.module.parameters())
+    def _optimizer_creator(
+        self, optimizer_cls: Union[torch.optim.Adam, torch.optim.AdamW]
+    ):
+        """
+        Create optimizer for the model.
+
+        This type of function can be passed as the `optimizer_creator`
+        """
+        return lambda params: optimizer_cls(
+            params, lr=self.lr, eps=self.eps, weight_decay=self.weight_decay
+        )
+
+    def get_optimizer_creator(self):
+        """Get optimizer creator for the model."""
         if self.optimizer_name == "Adam":
-            optim_cls = torch.optim.Adam
+            optim_creator = self._optimizer_creator(torch.optim.Adam)
         elif self.optimizer_name == "AdamW":
-            optim_cls = torch.optim.AdamW
+            optim_creator = self._optimizer_creator(torch.optim.AdamW)
+        elif self.optimizer_name == "Custom":
+            optim_creator = self._optimizer_creator
         else:
             raise ValueError("Optimizer not understood.")
-        optimizer = optim_cls(
-            params, lr=self.lr, eps=self.eps, weight_decay=self.weight_decay
-        )
+
+        return optim_creator
+
+    def configure_optimizers(self):
+        """Configure optimizers for the model."""
+        params = filter(lambda p: p.requires_grad, self.module.parameters())
+        optimizer = self.get_optimizer_creator()(params)
         config = {"optimizer": optimizer}
         if self.reduce_lr_on_plateau:
             scheduler = ReduceLROnPlateau(
@@ -390,10 +421,19 @@ class AdversarialTrainingPlan(TrainingPlan):
     ----------
     module
         A module instance from class ``BaseModuleClass``.
+    optimizer
+        One of "Adam" (:class:`~torch.optim.Adam`), "AdamW" (:class:`~torch.optim.AdamW`),
+        or "Custom", which requires a custom optimizer creator callable to be passed via
+        `optimizer_creator`.
+    optimizer_creator
+        A callable taking in parameters and returning a :class:`~torch.optim.Optimizer`.
+        This allows using any PyTorch optimizer with custom hyperparameters.
     lr
-        Learning rate used for optimization :class:`~torch.optim.Adam`.
+        Learning rate used for optimization, when `optimizer_creator` is None.
     weight_decay
-        Weight decay used in :class:`~torch.optim.Adam`.
+        Weight decay used in optimization, when `optimizer_creator` is None.
+    eps
+        eps used for optimization, when `optimizer_creator` is None.
     n_steps_kl_warmup
         Number of training steps (minibatches) to scale weight on KL divergences from 0 to 1.
         Only activated when `n_epochs_kl_warmup` is set to None.
@@ -427,8 +467,13 @@ class AdversarialTrainingPlan(TrainingPlan):
     def __init__(
         self,
         module: BaseModuleClass,
-        lr=1e-3,
-        weight_decay=1e-6,
+        *,
+        optimizer: Literal["Adam", "AdamW", "Custom"] = "Adam",
+        optimizer_creator: Optional[
+            Callable[[Iterable[torch.Tensor]], torch.optim.Optimizer]
+        ] = None,
+        lr: float = 1e-3,
+        weight_decay: float = 1e-6,
         n_steps_kl_warmup: Union[int, None] = None,
         n_epochs_kl_warmup: Union[int, None] = 400,
         reduce_lr_on_plateau: bool = False,
@@ -445,6 +490,8 @@ def __init__(
     ):
         super().__init__(
             module=module,
+            optimizer=optimizer,
+            optimizer_creator=optimizer_creator,
             lr=lr,
             weight_decay=weight_decay,
             n_steps_kl_warmup=n_steps_kl_warmup,
@@ -529,9 +576,7 @@ def training_step(self, batch, batch_idx, optimizer_idx=0):
     def configure_optimizers(self):
         """Configure optimizers for adversarial training."""
         params1 = filter(lambda p: p.requires_grad, self.module.parameters())
-        optimizer1 = torch.optim.Adam(
-            params1, lr=self.lr, eps=0.01, weight_decay=self.weight_decay
-        )
+        optimizer1 = self.get_optimizer_creator()(params1)
         config1 = {"optimizer": optimizer1}
         if self.reduce_lr_on_plateau:
             scheduler1 = ReduceLROnPlateau(
@@ -610,9 +655,10 @@ class SemiSupervisedTrainingPlan(TrainingPlan):
     def __init__(
         self,
         module: BaseModuleClass,
+        *,
         classification_ratio: int = 50,
-        lr=1e-3,
-        weight_decay=1e-6,
+        lr: float = 1e-3,
+        weight_decay: float = 1e-6,
         n_steps_kl_warmup: Union[int, None] = None,
         n_epochs_kl_warmup: Union[int, None] = 400,
         reduce_lr_on_plateau: bool = False,
@@ -865,7 +911,7 @@ class ClassifierTrainingPlan(pl.LightningModule):
     lr
         Learning rate used for optimization.
     weight_decay
-        Weight decay used in optimizatoin.
+        Weight decay used in optimization.
     eps
         eps used for optimization.
     optimizer
@@ -881,6 +927,7 @@ class ClassifierTrainingPlan(pl.LightningModule):
     def __init__(
         self,
         classifier: BaseModuleClass,
+        *,
         lr: float = 1e-3,
         weight_decay: float = 1e-6,
         eps: float = 0.01,
@@ -939,7 +986,7 @@ def configure_optimizers(self):
         return optimizer
 
 
-class JaxTrainingPlan(pl.LightningModule):
+class JaxTrainingPlan(TrainingPlan):
     """
     Lightning module task to train Pyro scvi-tools modules.
 
@@ -947,52 +994,90 @@ class JaxTrainingPlan(pl.LightningModule):
     ----------
     module
         An instance of :class:`~scvi.module.base.JaxModuleWraper`.
+    optimizer
+        One of "Adam", "AdamW", or "Custom", which requires a custom
+        optimizer creator callable to be passed via `optimizer_creator`.
+    optimizer_creator
+        A callable returning a :class:`~optax.GradientTransformation`.
+        This allows using any optax optimizer with custom hyperparameters.
+    lr
+        Learning rate used for optimization, when `optimizer_creator` is None.
+    weight_decay
+        Weight decay used in optimization, when `optimizer_creator` is None.
+    eps
+        eps used for optimization, when `optimizer_creator` is None.
+    max_norm
+        Max global norm of gradients for gradient clipping.
     n_steps_kl_warmup
-        Number of training steps (minibatches) to scale weight on KL divergences from 0 to 1.
-        Only activated when `n_epochs_kl_warmup` is set to None.
+        Number of training steps (minibatches) to scale weight on KL divergences from
+        `min_kl_weight` to `max_kl_weight`. Only activated when `n_epochs_kl_warmup` is
+        set to None.
     n_epochs_kl_warmup
-        Number of epochs to scale weight on KL divergences from 0 to 1.
-        Overrides `n_steps_kl_warmup` when both are not `None`.
+        Number of epochs to scale weight on KL divergences from `min_kl_weight` to
+        `max_kl_weight`. Overrides `n_steps_kl_warmup` when both are not `None`.
     """
 
     def __init__(
         self,
         module: JaxModuleWrapper,
+        *,
+        optimizer: Literal["Adam", "AdamW", "Custom"] = "Adam",
+        optimizer_creator: Optional[Callable[[], optax.GradientTransformation]] = None,
+        lr: float = 1e-3,
+        weight_decay: float = 1e-6,
+        eps: float = 0.01,
+        max_norm: Optional[float] = None,
         n_steps_kl_warmup: Union[int, None] = None,
         n_epochs_kl_warmup: Union[int, None] = 400,
-        optim_kwargs: Optional[dict] = None,
         **loss_kwargs,
     ):
-        super().__init__()
-        self.module = module
-        self._n_obs_training = None
-        self.loss_kwargs = loss_kwargs
-        self.n_steps_kl_warmup = n_steps_kl_warmup
-        self.n_epochs_kl_warmup = n_epochs_kl_warmup
-
+        super().__init__(
+            module=module,
+            lr=lr,
+            weight_decay=weight_decay,
+            eps=eps,
+            optimizer=optimizer,
+            optimizer_creator=optimizer_creator,
+            n_steps_kl_warmup=n_steps_kl_warmup,
+            n_epochs_kl_warmup=n_epochs_kl_warmup,
+            **loss_kwargs,
+        )
+        self.max_norm = max_norm
         self.automatic_optimization = False
+        self._dummy_param = torch.nn.Parameter(torch.Tensor([0.0]))
 
-        # automatic handling of kl weight
-        self._loss_args = signature(self.module.loss).parameters
-        if "kl_weight" in self._loss_args:
-            self.loss_kwargs.update({"kl_weight": self.kl_weight})
+    def get_optimizer_creator(self) -> Callable[[], optax.GradientTransformation]:
+        """Get optimizer creator for the model."""
+        clip_by = (
+            optax.clip_by_global_norm(self.max_norm)
+            if self.max_norm
+            else optax.identity()
+        )
+        if self.optimizer_name == "Adam":
+            # Replicates PyTorch Adam defaults
+            optim = optax.chain(
+                clip_by,
+                optax.additive_weight_decay(weight_decay=self.weight_decay),
+                optax.adam(self.lr, eps=self.eps),
+            )
+        elif self.optimizer_name == "AdamW":
+            optim = optax.chain(
+                clip_by,
+                optax.clip_by_global_norm(self.max_norm),
+                optax.adamw(self.lr, eps=self.eps, weight_decay=self.weight_decay),
+            )
+        elif self.optimizer_name == "Custom":
+            optim = self._optimizer_creator
+        else:
+            raise ValueError("Optimizer not understood.")
 
-        # set optim kwargs
-        self.optim_kwargs = dict(learning_rate=1e-3, eps=0.01, weight_decay=1e-6)
-        if optim_kwargs is not None:
-            self.optim_kwargs.update(optim_kwargs)
+        return lambda: optim
 
     def set_train_state(self, params, state=None):
         """Set the state of the module."""
         if self.module.train_state is not None:
             return
-
-        weight_decay = self.optim_kwargs.pop("weight_decay")
-        # replicates PyTorch Adam
-        optimizer = optax.chain(
-            optax.additive_weight_decay(weight_decay=weight_decay),
-            optax.adam(**self.optim_kwargs),
-        )
+        optimizer = self.get_optimizer_creator()()
         train_state = TrainStateWithState.create(
             apply_fn=self.module.apply,
             params=params,
@@ -1095,24 +1180,23 @@ def validation_step(self, batch, batch_idx):
             batch_size=batch[REGISTRY_KEYS.X_KEY].shape[0],
         )
 
-    @property
-    def kl_weight(self):
-        """Scaling factor on KL divergence during training."""
-        return _compute_kl_weight(
-            self.current_epoch,
-            self.global_step,
-            self.n_epochs_kl_warmup,
-            self.n_steps_kl_warmup,
-        )
-
     @staticmethod
     def transfer_batch_to_device(batch, device, dataloader_idx):
         """Bypass Pytorch Lightning device management."""
         return batch
 
     def configure_optimizers(self):
-        """Configure optimizers."""
-        return None
+        """
+        Shim optimizer for PyTorch Lightning.
+
+        PyTorch Lightning wants to take steps on an optimizer
+        returned by this function in order to increment the global
+        step count. See PyTorch Lighinting optimizer manual loop.
+
+        Here we provide a shim optimizer that we can take steps on
+        at minimal computational cost in order to keep Lightning happy :).
+        """
+        return torch.optim.Adam([self._dummy_param])
 
     def optimizer_step(self, *args, **kwargs):  # noqa: D102
         pass
diff --git a/tests/models/test_models.py b/tests/models/test_models.py
index 34ce851162..437500363b 100644
--- a/tests/models/test_models.py
+++ b/tests/models/test_models.py
@@ -937,7 +937,7 @@ def test_device_backed_data_splitter():
     assert len(loaded_x) == a.shape[0]
     np.testing.assert_array_equal(loaded_x.cpu().numpy(), a.X)
 
-    training_plan = TrainingPlan(model.module, len(ds.train_idx))
+    training_plan = TrainingPlan(model.module)
     runner = TrainRunner(
         model,
         training_plan=training_plan,
diff --git a/tests/models/test_models_latent_mode.py b/tests/models/test_models_latent_mode.py
index cab006819c..04c41b2656 100644
--- a/tests/models/test_models_latent_mode.py
+++ b/tests/models/test_models_latent_mode.py
@@ -57,7 +57,9 @@ def run_test_scvi_latent_mode_dist(
     assert model.adata.var_names.equals(model_orig.adata.var_names)
     assert model.adata.var.equals(model_orig.adata.var)
     assert model.adata.varm.keys() == model_orig.adata.varm.keys()
-    assert np.array_equal(model.adata.varm["my_varm"], model_orig.adata.varm["my_varm"])
+    np.testing.assert_array_equal(
+        model.adata.varm["my_varm"], model_orig.adata.varm["my_varm"]
+    )
 
     scvi.settings.seed = 1
     keys = ["mean", "dispersions", "dropout"]
@@ -79,7 +81,11 @@ def run_test_scvi_latent_mode_dist(
         assert params_latent[k].shape == adata.shape
 
     for k in keys:
-        assert np.array_equal(params_latent[k], params_orig[k])
+        # Allclose because on GPU, the values are not exactly the same
+        # as latents are moved to cpu in latent mode
+        np.testing.assert_allclose(
+            params_latent[k], params_orig[k], rtol=3e-1, atol=5e-1
+        )
 
 
 def test_scvi_latent_mode_dist_one_sample():
@@ -111,7 +117,7 @@ def test_scvi_latent_mode_get_normalized_expression():
     exprs_latent = model.get_normalized_expression()
     assert exprs_latent.shape == adata.shape
 
-    assert np.array_equal(exprs_latent, exprs_orig)
+    np.testing.assert_array_equal(exprs_latent, exprs_orig)
 
 
 def test_scvi_latent_mode_get_normalized_expression_non_default_gene_list():
@@ -144,7 +150,7 @@ def test_scvi_latent_mode_get_normalized_expression_non_default_gene_list():
     exprs_latent = exprs_latent[1:].mean(0)
 
     assert exprs_latent.shape == (adata.shape[0], 5)
-    assert np.array_equal(exprs_latent, exprs_orig)
+    np.testing.assert_allclose(exprs_latent, exprs_orig, rtol=3e-1, atol=5e-1)
 
 
 def test_latent_mode_validate_unsupported():
@@ -195,7 +201,7 @@ def test_scvi_latent_mode_save_load_latent(save_path):
     scvi.settings.seed = 1
     params_latent = loaded_model.get_likelihood_parameters()
     assert params_latent["mean"].shape == adata.shape
-    assert np.array_equal(params_latent["mean"], params_orig["mean"])
+    np.testing.assert_array_equal(params_latent["mean"], params_orig["mean"])
 
 
 def test_scvi_latent_mode_save_load_latent_to_non_latent(save_path):
@@ -219,7 +225,7 @@ def test_scvi_latent_mode_save_load_latent_to_non_latent(save_path):
     scvi.settings.seed = 1
     params_new = loaded_model.get_likelihood_parameters()
     assert params_new["mean"].shape == adata.shape
-    assert np.array_equal(params_new["mean"], params_orig["mean"])
+    np.testing.assert_array_equal(params_new["mean"], params_orig["mean"])
 
 
 def test_scvi_latent_mode_save_load_non_latent_to_latent(save_path):
@@ -257,7 +263,7 @@ def test_scvi_latent_mode_get_latent_representation():
     scvi.settings.seed = 1
     latent_repr_latent = model.get_latent_representation()
 
-    assert np.array_equal(latent_repr_latent, latent_repr_orig)
+    np.testing.assert_array_equal(latent_repr_latent, latent_repr_orig)
 
 
 def test_scvi_latent_mode_posterior_predictive_sample():
@@ -281,7 +287,7 @@ def test_scvi_latent_mode_posterior_predictive_sample():
     )
     assert sample_latent.shape == (3, 2)
 
-    assert np.array_equal(sample_latent, sample_orig)
+    np.testing.assert_array_equal(sample_latent, sample_orig)
 
 
 def test_scvi_latent_mode_get_feature_correlation_matrix():
@@ -308,4 +314,4 @@ def test_scvi_latent_mode_get_feature_correlation_matrix():
         transform_batch=["batch_0", "batch_1"],
     )
 
-    assert np.array_equal(fcm_latent, fcm_orig)
+    np.testing.assert_array_equal(fcm_latent, fcm_orig)