vllm-project · ianliuy · Apr 10, 2026 · Apr 11, 2026 · Apr 14, 2026
@@ -13,11 +13,9 @@
 
 
 class _FakeCodec:
-    def decode(self, codes_bqf: torch.Tensor, feature_lengths: torch.Tensor):
-        del codes_bqf, feature_lengths
-        wav = torch.arange(100, dtype=torch.float32).view(1, 1, 100)
-        audio_lengths = torch.tensor([100], dtype=torch.long)
-        return wav, audio_lengths
+    def from_indices(self, codes_bqf: torch.Tensor):
+        del codes_bqf
+        return torch.arange(100, dtype=torch.float32).view(1, 1, 100)
 
 
 class _FakeTokenizer:

@@ -296,7 +296,11 @@ def forward(
             codes_bqf[i, :, :frame_count] = codes_qf
 
         with torch.amp.autocast("cuda", enabled=False):
-            wav_batch, audio_lengths = self._codec.decode(codes_bqf, feature_lengths)
+            wav_batch = self._codec.from_indices(codes_bqf)
+        audio_lengths = torch.clamp(
+            feature_lengths * self._hop_length,
+            max=wav_batch.shape[-1],
+        )
 
         audios: list[torch.Tensor] = [empty] * num_req
         srs = [sr_tensor] * num_req