Temporary code storage

ZhijunLStudio · ZhijunLStudio · commit e612bd63a5f8 · 2025-10-31T16:21:50.000+08:00
diff --git a/fastdeploy/model_executor/layers/attention/append_attn_backend.py b/fastdeploy/model_executor/layers/attention/append_attn_backend.py
@@ -155,6 +155,37 @@ def init_attention_metadata(self, forward_meta: ForwardMeta):
             )
 
         self.attention_metadata: AttentionMetadata = metadata
+        
+        
+        try:
+            from paddleformers.utils.log import logger
+            is_prefill = int(paddle.max(forward_meta.seq_lens_encoder).item()) > 0
+            if is_prefill: # 只在 prefill 阶段打印
+                logger.info("\n\n" + "="*30)
+                logger.info("GOLDEN METADATA DUMP (FROM OLD VERSION)")
+                logger.info("="*30)
+                
+                def log_tensor_as_list(tensor, name):
+                    if tensor is not None:
+                        # 使用 .numpy() 获取 CPU 上的值
+                        logger.info(f"'{name}': {tensor.numpy().flatten().tolist()},")
+                    else:
+                        logger.info(f"'{name}': None,")
+
+                log_tensor_as_list(forward_meta.encoder_num_blocks_x_cpu, "encoder_num_blocks_x_cpu")
+                log_tensor_as_list(forward_meta.kv_num_blocks_x_cpu, "kv_num_blocks_x_cpu")
+                log_tensor_as_list(forward_meta.decoder_num_blocks_cpu, "decoder_num_blocks_cpu")
+                log_tensor_as_list(forward_meta.max_len_tensor_cpu, "max_len_tensor_cpu")
+                log_tensor_as_list(forward_meta.max_len_kv_cpu, "max_len_kv_cpu")
+                
+                # (可选，但最好有) 如果 encoder_batch_ids 等张量尺寸不大，也打印出来
+                log_tensor_as_list(forward_meta.encoder_batch_ids, "encoder_batch_ids")
+                log_tensor_as_list(forward_meta.encoder_tile_ids_per_batch, "encoder_tile_ids_per_batch")
+                
+                logger.info("="*30 + "\n\n")
+        except Exception as e:
+            # 忽略可能的打印错误
+            pass
 
     def get_attntion_meta(self) -> AttentionMetadata:
         """get_attntion_meta"""
@@ -197,6 +228,76 @@ def forward_mixed(
         """
         forward_mixed
         """
+
+        # ==================== [START] 全面 Debug 打印代码 ====================
+        is_capturing_cudagraph = forward_meta.step_use_cudagraph
+
+        if not is_capturing_cudagraph and layer.layer_id == 7: # 只打印我们关心的GQA层
+            try:
+                from fastdeploy.model_executor.models.minimax_m1 import print_tensor_stats
+                from paddleformers.utils.log import logger
+            except ImportError:
+                import logging
+                logger = logging.getLogger(__name__)
+                def print_tensor_stats(tensor, name):
+                    if tensor is not None:
+                        logger.info(f"--- [FD DEBUG] {name} Shape: {tensor.shape}, DType: {tensor.dtype} ---")
+                    else:
+                        logger.info(f"--- [FD DEBUG] {name} is None ---")
+            
+            logger.info(f"\n{'='*25}\n[FD DEBUG] DETAILED DUMP for append_attention @ Layer {layer.layer_id}\n{'='*25}")
+
+            # 1. 打印 atención 模块的配置参数
+            logger.info(f"--- [FD DEBUG] Attention Config ---")
+            logger.info(f"  - use_neox_rotary_style: {layer.use_neox_rotary_style}")
+            logger.info(f"  - sliding_window: {layer.sliding_window}")
+            logger.info(f"  - causal: {self.causal}")
+            logger.info(f"  - speculative_method is not None: {self.speculative_method is not None}")
+            logger.info(f"  - head_dim: {self.head_dim}, num_heads: {self.num_heads}, num_kv_heads: {self.kv_num_heads}")
+            logger.info(f"--------------------------\n")
+            
+            # 2. 打印核心输入张量 (qkv)
+            print_tensor_stats(qkv, f"FD_L{layer.layer_id}_INPUT:qkv_combined")
+
+            # 3. 打印 KV Cache 相关张量
+            cache_k = forward_meta.caches[2 * layer.layer_id]
+            cache_v = forward_meta.caches[2 * layer.layer_id + 1]
+            print_tensor_stats(cache_k, f"FD_L{layer.layer_id}_INPUT:cache_k")
+            print_tensor_stats(cache_v, f"FD_L{layer.layer_id}_INPUT:cache_v")
+            print_tensor_stats(forward_meta.block_tables, f"FD_L{layer.layer_id}_META:block_tables")
+
+            # 4. 打印序列长度和位置信息
+            print_tensor_stats(forward_meta.seq_lens_encoder, f"FD_L{layer.layer_id}_META:seq_lens_encoder")
+            print_tensor_stats(forward_meta.seq_lens_decoder, f"FD_L{layer.layer_id}_META:seq_lens_decoder")
+            print_tensor_stats(forward_meta.seq_lens_this_time, f"FD_L{layer.layer_id}_META:seq_lens_this_time")
+            print_tensor_stats(forward_meta.batch_id_per_token, f"FD_L{layer.layer_id}_META:batch_id_per_token")
+            print_tensor_stats(forward_meta.cu_seqlens_q, f"FD_L{layer.layer_id}_META:cu_seqlens_q")
+
+            # 5. 打印 RoPE 查找表
+            metadata = self.attention_metadata
+            print_tensor_stats(metadata.rotary_embs, f"FD_L{layer.layer_id}_INPUT:rotary_embs_table")
+
+            # 6. 打印用于 Kernel 内部计算的 Tile/Block 划分信息 (非常重要！)
+            print_tensor_stats(forward_meta.encoder_batch_ids, f"FD_L{layer.layer_id}_META:encoder_batch_ids")
+            print_tensor_stats(forward_meta.encoder_tile_ids_per_batch, f"FD_L{layer.layer_id}_META:encoder_tile_ids_per_batch")
+            print_tensor_stats(forward_meta.encoder_num_blocks_x_cpu, f"FD_L{layer.layer_id}_META:encoder_num_blocks_x_cpu")
+            
+            print_tensor_stats(forward_meta.kv_batch_ids, f"FD_L{layer.layer_id}_META:kv_batch_ids")
+            print_tensor_stats(forward_meta.kv_tile_ids_per_batch, f"FD_L{layer.layer_id}_META:kv_tile_ids_per_batch")
+            print_tensor_stats(forward_meta.kv_num_blocks_x_cpu, f"FD_L{layer.layer_id}_META:kv_num_blocks_x_cpu")
+
+            print_tensor_stats(forward_meta.decoder_batch_ids, f"FD_L{layer.layer_id}_META:decoder_batch_ids")
+            print_tensor_stats(forward_meta.decoder_tile_ids_per_batch, f"FD_L{layer.layer_id}_META:decoder_tile_ids_per_batch")
+            print_tensor_stats(forward_meta.decoder_num_blocks_cpu, f"FD_L{layer.layer_id}_META:decoder_num_blocks_cpu")
+
+            # 7. 打印 max_len_tensor_cpu (非常重要！)
+            print_tensor_stats(forward_meta.max_len_tensor_cpu, f"FD_L{layer.layer_id}_META:max_len_tensor_cpu")
+            
+            logger.info(f"\n{'='*25}\n[FD DEBUG] END OF DUMP for append_attention @ Layer {layer.layer_id}\n{'='*25}\n")
+        
+        # ==================== [END] 全面 Debug 打印代码 ====================
+  
+        
         metadata = self.attention_metadata
 
         sliding_window = layer.sliding_window
diff --git a/fastdeploy/model_executor/layers/rotary_embedding.py b/fastdeploy/model_executor/layers/rotary_embedding.py
@@ -28,6 +28,21 @@
 
 from .utils import CpuGuard
 
+from paddleformers.utils.log import logger # 确保 logger 被导入
+
+# 导入你的打印函数
+try:
+    from fastdeploy.model_executor.models.minimax_m1 import print_tensor_stats
+except ImportError:
+    # 如果无法导入，定义一个备用函数以避免程序崩溃
+    import pprint
+    def print_tensor_stats(tensor, name):
+        logger.info(f"--- [FD DEBUG] {name} --- (print_tensor_stats not found, simple log)")
+        if tensor is not None:
+            logger.info(f"Shape: {tensor.shape}, DType: {tensor.dtype}")
+        else:
+            logger.info("Tensor is None")
+
 
 class ErnieRotaryEmbedding:
     def __init__(self, rotary_dim, base, partial_rotary_factor):
@@ -79,29 +94,82 @@ def __call__(self, position_ids):
             return rot_emb
 
 
+# class GlmRotaryEmbedding:
+#     def __init__(self, rotary_dim, base, partial_rotary_factor):
+#         """
+#         Pre-calculate rotary position embedding for position_ids.
+#         """
+#         self.rotary_dim = rotary_dim
+#         self.base = base
+#         if partial_rotary_factor < 1.0:
+#             self.rotary_dim = int(self.rotary_dim * partial_rotary_factor)
+
+#     def __call__(self, position_ids):
+#         bsz, max_seq_len = position_ids.shape[:2]
+#         inv_freq = self.base ** (-paddle.arange(0, self.rotary_dim, 2, dtype="float32") / self.rotary_dim)
+#         freqs = paddle.einsum("ij,k->ijk", position_ids.cast("float32"), inv_freq)
+#         # shape: [B, S, D/2]
+#         rot_emb = paddle.zeros((2, bsz, max_seq_len, 1, self.rotary_dim // 2), dtype="float32")
+#         emb = paddle.stack([freqs], axis=-1).reshape((bsz, max_seq_len, self.rotary_dim // 2))
+#         # shape: [B, S, 1, D]
+#         emb = paddle.unsqueeze(emb, 2)
+#         rot_emb[0] = paddle.cos(emb)
+#         rot_emb[1] = paddle.sin(emb)
+#         return rot_emb
+
+
+
 class GlmRotaryEmbedding:
     def __init__(self, rotary_dim, base, partial_rotary_factor):
         """
         Pre-calculate rotary position embedding for position_ids.
         """
-        self.rotary_dim = rotary_dim
+        # --- 详细日志 ---
+        logger.info(">>>> [GlmRotaryEmbedding.__init__] <<<<")
+        logger.info(f"    - Received rotary_dim (as head_dim): {rotary_dim}")
+        logger.info(f"    - Received partial_rotary_factor: {partial_rotary_factor}")
+        
         self.base = base
+        
+        # 核心计算
         if partial_rotary_factor < 1.0:
-            self.rotary_dim = int(self.rotary_dim * partial_rotary_factor)
+            self.rotary_dim = int(rotary_dim * partial_rotary_factor)
+        else:
+            self.rotary_dim = rotary_dim
+            
+        logger.info(f"    - Calculated final self.rotary_dim: {self.rotary_dim}")
+        # --- 日志结束 ---
 
     def __call__(self, position_ids):
+        # --- 详细日志 ---
+        logger.info(">>>> [GlmRotaryEmbedding.__call__] <<<<")
+        logger.info(f"    - Using self.rotary_dim: {self.rotary_dim}")
+        logger.info(f"    - Using self.base: {self.base}")
+        
         bsz, max_seq_len = position_ids.shape[:2]
-        inv_freq = self.base ** (-paddle.arange(0, self.rotary_dim, 2, dtype="float32") / self.rotary_dim)
+        
+        # 检查 arange 的上界
+        arange_upper_bound = self.rotary_dim
+        logger.info(f"    - paddle.arange upper bound is: {arange_upper_bound}")
+        
+        # 关键计算步骤
+        inv_freq_dims = paddle.arange(0, arange_upper_bound, 2, dtype="float32")
+        logger.info(f"    - Shape of inv_freq_dims (from arange): {inv_freq_dims.shape}") # 这一行会告诉我们最终维度
+        
+        inv_freq = self.base ** (-inv_freq_dims / self.rotary_dim)
         freqs = paddle.einsum("ij,k->ijk", position_ids.cast("float32"), inv_freq)
-        # shape: [B, S, D/2]
+        
         rot_emb = paddle.zeros((2, bsz, max_seq_len, 1, self.rotary_dim // 2), dtype="float32")
         emb = paddle.stack([freqs], axis=-1).reshape((bsz, max_seq_len, self.rotary_dim // 2))
-        # shape: [B, S, 1, D]
+        
         emb = paddle.unsqueeze(emb, 2)
         rot_emb[0] = paddle.cos(emb)
         rot_emb[1] = paddle.sin(emb)
-        return rot_emb
+            
+        logger.info(f"    - Final returned rot_emb shape: {rot_emb.shape}")
+        logger.info(">>>> [GlmRotaryEmbedding.__call__ END] <<<<")
 
+        return rot_emb
 
 class QwenRotaryEmbedding:
     def __init__(self, rotary_dim, base, partial_rotary_factor):
@@ -131,7 +199,6 @@ def __call__(self, position_ids):
 
         return rot_emb
 
-
 def yarn_get_mscale(scale=1, mscale=1):
     """ """
     if scale <= 1:
@@ -332,11 +399,14 @@ def get_rope_impl(
     """
     The real implementation of get_rope
     """
+    print_tensor_stats(position_ids[:, :16], "ROPE_IMPL_INPUT:position_ids[:, :16]")
 
     architecture = model_config.architectures[0]
+    # if architecture.startswith("Qwen") or architecture.startswith("MiniMaxM1"):
     if architecture.startswith("Qwen"):
         rotary_emb_layer = QwenRotaryEmbedding(rotary_dim, base, partial_rotary_factor)
         rotary_emb = rotary_emb_layer(position_ids)
+    # elif architecture.startswith("Glm"):
     elif architecture.startswith("Glm") or architecture.startswith("MiniMaxM1"):
         rotary_emb_layer = GlmRotaryEmbedding(rotary_dim, base, partial_rotary_factor)
         rotary_emb = rotary_emb_layer(position_ids)
@@ -354,6 +424,15 @@ def get_rope_impl(
     else:
         rotary_emb_layer = ErnieRotaryEmbedding(rotary_dim, base, partial_rotary_factor)
         rotary_emb = rotary_emb_layer(position_ids)
+        
+    # if rotary_emb.ndim == 5:
+    #     logger.info(f">>>> [ROPE RESHAPE] Squeezing rotary_emb from {rotary_emb.shape} <<<<")
+    #     rotary_emb = paddle.squeeze(rotary_emb, axis=[1, 3])
+    #     logger.info(f">>>> [ROPE RESHAPE] New shape is {rotary_emb.shape} <<<<")
+    
+    # ... (之前的日志打印)
+    print_tensor_stats(rotary_emb[0, :16], "ROPE_IMPL_OUTPUT:cos_emb[:16]")
+    print_tensor_stats(rotary_emb[1, :16], "ROPE_IMPL_OUTPUT:sin_emb[:16]")
     return rotary_emb
 
 
diff --git a/fastdeploy/model_executor/models/minimax_m1.py b/fastdeploy/model_executor/models/minimax_m1.py
@@ -492,7 +492,7 @@ def forward(self, forward_meta: ForwardMeta, hidden_states: paddle.Tensor, resid
             print_tensor_stats(k_before_rope, f"FD_L{layer_id}:1d_K_BeforeRoPE")
             print_tensor_stats(v_tensor,      f"FD_L{layer_id}:1e_V_Tensor")
             logger.info(f"--- [FD DEBUG] ForwardMeta DUMP FOR LAYER {layer_id} ---")
-            # 1. RoPE 缓存 (最关键的)
+            # 1. RoPE 缓存
             # 我们需要知道它的形状，以确认是否正确生成
             if forward_meta.rotary_embs is not None:
                 logger.info("--- [FD DEBUG] forward_meta.rotary_embs ---")