[https://nvbugs/5503138] [fix] Remove compile warnings (#8167)

VALLIS-NERIA · web-flow · commit 5ce97197592f · 2025-10-13T13:24:23.000+08:00
Signed-off-by: Xiwen Yu &lt;13230610+VALLIS-NERIA@users.noreply.github.com&gt;
diff --git a/cpp/tensorrt_llm/kernels/communicationKernels/mnnvlTwoShotAllreduceKernels.cu b/cpp/tensorrt_llm/kernels/communicationKernels/mnnvlTwoShotAllreduceKernels.cu
@@ -396,6 +396,7 @@ __inline__ __device__ T warpReduceSum(T val)
     return val;
 }
 
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
 inline __device__ float block_reduce_sum(float val)
 {
     __shared__ float smem[WARP_SIZE];
@@ -426,6 +427,7 @@ __device__ float4 loadfloat4(void const* ptr)
 
     return return_value;
 }
+#endif
 } // namespace
 
 template <int DIM, int NUM_THREADS, int NUM_INPUTS, typename T_OUT, typename T_IN>
diff --git a/cpp/tensorrt_llm/kernels/cutlass_kernels/fp8_blockscale_gemm/fp8_blockscale_tma_utils.cuh b/cpp/tensorrt_llm/kernels/cutlass_kernels/fp8_blockscale_gemm/fp8_blockscale_tma_utils.cuh
@@ -89,12 +89,8 @@ PFN_cuTensorMapEncodeTiled_v12000 get_cuTensorMapEncodeTiled()
     // Get pointer to cuTensorMapEncodeTiled
     cudaDriverEntryPointQueryResult driver_status;
     void* cuTensorMapEncodeTiled_ptr = nullptr;
-#if (__CUDACC_VER_MAJOR__ >= 12 && __CUDACC_VER_MINOR__ >= 5)
     cudaGetDriverEntryPointByVersion(
         "cuTensorMapEncodeTiled", &cuTensorMapEncodeTiled_ptr, 12000, cudaEnableDefault, &driver_status);
-#else
-    cudaGetDriverEntryPoint("cuTensorMapEncodeTiled", &cuTensorMapEncodeTiled_ptr, cudaEnableDefault, &driver_status);
-#endif
 
     if (driver_status != cudaDriverEntryPointSuccess)
     {
diff --git a/cpp/tensorrt_llm/kernels/recoverFromRingAtten.cu b/cpp/tensorrt_llm/kernels/recoverFromRingAtten.cu
@@ -53,6 +53,10 @@ __global__ void reduce4ring_attention(
     float* softmax_sum = softmax_stats + 1;
     float* max = softmax_stats;
 
+#ifdef __NVCC_DIAG_PRAGMA_SUPPORT__
+#pragma nv_diag_suppress static_var_with_dynamic_init
+// https://nvidia.github.io/cccl/libcudacxx/extended_api/synchronization_primitives/barrier.html
+#endif
     __shared__ cuda::barrier<cuda::thread_scope::thread_scope_block> barrier;
     if (block.thread_rank() == 0)
     {
@@ -113,11 +117,6 @@ template <typename Tout>
 void invokeRecoverFromRA(Tout* accu_output, float* accu_softmax_stats, Tout* output, float* softmax_stats, int b, int s,
     int h, int d, int* cu_seqlens, cudaStream_t stream)
 {
-    float* accu_softmax_sum = accu_softmax_stats;
-    float* accu_softmax_max = accu_softmax_stats + b * s * h;
-    float* softmax_sum = softmax_stats;
-    float* softmax_max = softmax_stats + b * s * h;
-
     int threads_per_block = 128;
     int saturated_s_block_dim = 3000 / b + 1;
     s = s * h;
diff --git a/cpp/tensorrt_llm/kernels/trtllmGenKernels/gemm/KernelRunner.cpp b/cpp/tensorrt_llm/kernels/trtllmGenKernels/gemm/KernelRunner.cpp
@@ -16,13 +16,16 @@
 
 #include <vector>
 
+// clang-format off
+#include "trtllmGen_gemm_export/GemmInterface.h"
+#include "trtllmGen_gemm_export/GemmOptions.h"
+#include "trtllmGen_gemm_export/trtllm/gen/DtypeDecl.h"
+// clang-format on
+
 #include "KernelRunner.h"
 #include "tensorrt_llm/common/assert.h"
 #include "tensorrt_llm/common/cudaUtils.h"
 #include "tensorrt_llm/common/envUtils.h"
-#include "trtllmGen_gemm_export/GemmInterface.h"
-#include "trtllmGen_gemm_export/GemmOptions.h"
-#include "trtllmGen_gemm_export/trtllm/gen/DtypeDecl.h"
 
 namespace tensorrt_llm
 {

Original file line number	Diff line number	Diff line change
`@@ -396,6 +396,7 @@ __inline__ __device__ T warpReduceSum(T val)`
`396`	`396`	`return val;`
`397`	`397`	`}`
`398`	`398`
	`399`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
`399`	`400`	`inline __device__ float block_reduce_sum(float val)`
`400`	`401`	`{`
`401`	`402`	`__shared__ float smem[WARP_SIZE];`
`@@ -426,6 +427,7 @@ __device__ float4 loadfloat4(void const* ptr)`
`426`	`427`
`427`	`428`	`return return_value;`
`428`	`429`	`}`
	`430`	`+#endif`
`429`	`431`	`} // namespace`
`430`	`432`
`431`	`433`	`template <int DIM, int NUM_THREADS, int NUM_INPUTS, typename T_OUT, typename T_IN>`