huggingface · sgugger · Feb 28, 2023 · Feb 27, 2023 · Feb 27, 2023 · Feb 27, 2023
diff --git a/src/transformers/models/blip/modeling_blip.py b/src/transformers/models/blip/modeling_blip.py
@@ -990,7 +990,7 @@ def forward(
 
         >>> outputs = model(**inputs)
         ```"""
-        batch_size = pixel_values.shape[0]
+        pixel_values.shape[0]
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
 
         vision_outputs = self.vision_model(
@@ -1002,12 +1002,6 @@ def forward(
 
         image_embeds = vision_outputs[0]
 
-        if input_ids is None:
-            input_ids = torch.LongTensor([[self.decoder_input_ids] * batch_size]).to(image_embeds.device)
-
-        if labels is None:
-            labels = input_ids.masked_fill(input_ids == self.decoder_pad_token_id, -100)
-
         outputs = self.text_decoder(
             input_ids=input_ids,
             attention_mask=attention_mask,