huggingface · regisss · Nov 26, 2024 · Sep 20, 2024
@@ -978,7 +978,9 @@ def hpu_deepspeed_checkpointing(function, *checkpoint_args, use_reentrant: Optio
                             inputs["flash_attention_recompute"] = True
                         if self.model.generation_config.flash_attention_causal_mask:
                             inputs["flash_attention_causal_mask"] = True
-
+                if self.model.config is not None:
+                    if self.model.config.model_type in ["llama", "qwen2", "mistral", "starcoder2"]:
+                        inputs["lazy_mode"] = args.use_lazy_mode
                 # TODO: keep syncs for fast DDP?
                 with self.accelerator.accumulate(model):
                     tr_loss_step = self.training_step(model, inputs)