NVIDIA
diff --git a/‎cpp/tensorrt_llm/batch_manager/dataTransceiver.cpp‎
Lines changed: 2 additions & 1 deletion b/‎cpp/tensorrt_llm/batch_manager/dataTransceiver.cpp‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎cpp/tensorrt_llm/common/envUtils.h‎
Lines changed: 22 additions & 0 deletions b/‎cpp/tensorrt_llm/common/envUtils.h‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎cpp/tensorrt_llm/kernels/fusedMoeCommKernels.cu‎
Lines changed: 12 additions & 1 deletion b/‎cpp/tensorrt_llm/kernels/fusedMoeCommKernels.cu‎
Lines changed: 12 additions & 1 deletion
diff --git a/‎cpp/tensorrt_llm/kernels/fusedMoeCommKernels.h‎
Lines changed: 1 addition & 0 deletions b/‎cpp/tensorrt_llm/kernels/fusedMoeCommKernels.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎cpp/tensorrt_llm/kernels/moeLoadBalance/moeLoadBalanceKernels.cu‎
Lines changed: 62 additions & 16 deletions b/‎cpp/tensorrt_llm/kernels/moeLoadBalance/moeLoadBalanceKernels.cu‎
Lines changed: 62 additions & 16 deletions
@@ -291,8 +291,9 @@ class CacheSender::Impl
         mSelfState.setCommState(std::move(commState));
     }
 
-    [[nodiscard]] size_t getCounterpartsCount(LlmRequest::RequestIdType requestId) const
+    [[nodiscard]] size_t getCounterpartsCount(LlmRequest::RequestIdType requestId)
     {
+        std::unique_lock<std::mutex> lock(mMtxForMap);
         auto it = mRequestToSession.find(requestId);
         TLLM_CHECK(it != mRequestToSession.end());
         return it->second.getConnections().size();
 
@@ -16,7 +16,9 @@
  */
 
 #pragma once
+#include "tensorrt_llm/common/cudaUtils.h"
 #include <cstdint>
+#include <cuda_runtime.h>
 #include <optional>
 #include <string>
 
@@ -55,6 +57,26 @@ int getEnvMmhaKernelBlockSize();
 // Whether PDL is enabled.
 bool getEnvEnablePDL();
 
+template <typename KernelFn, typename... Args>
+inline void launchWithPdlWhenEnabled(char const* name, KernelFn kernelFn, dim3 grid, dim3 block, size_t dynamicShmSize,
+    cudaStream_t stream, Args&&... args)
+{
+    TLLM_LOG_DEBUG("Enable PDL in %s", name);
+    cudaLaunchConfig_t kernelConfig;
+    kernelConfig.gridDim = grid;
+    kernelConfig.blockDim = block;
+    kernelConfig.dynamicSmemBytes = dynamicShmSize;
+    kernelConfig.stream = stream;
+
+    cudaLaunchAttribute attrs[1];
+    attrs[0].id = cudaLaunchAttributeProgrammaticStreamSerialization;
+    attrs[0].val.programmaticStreamSerializationAllowed = tensorrt_llm::common::getEnvEnablePDL();
+    kernelConfig.attrs = attrs;
+    kernelConfig.numAttrs = 1;
+
+    TLLM_CUDA_CHECK(cudaLaunchKernelEx(&kernelConfig, kernelFn, std::forward<Args>(args)...));
+}
+
 bool getEnvUseUCXKvCache();
 
 bool getEnvUseMPIKvCache();
 
@@ -27,6 +27,8 @@ namespace tensorrt_llm
 namespace kernels
 {
 
+using tensorrt_llm::common::launchWithPdlWhenEnabled;
+
 // Quantize a contiguous shared-memory buffer containing elements of DType into NVFP4 with per-16-element FP8 scales.
 // Output layout (repeated per 16-element group per lane), followed by one global scale float:
 //   [WARP_SIZE * 8 bytes packed e2m1 values] [WARP_SIZE * 1 byte E4M3 per-group scales] ... [global_scale (4 bytes)]
@@ -1069,6 +1071,10 @@ public:
 
         int sendIndex = mPairInfo.channel;
         uint32_t phaseParity = 0;
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+        cudaGridDependencySynchronize();
+        cudaTriggerProgrammaticLaunchCompletion();
+#endif
         for (; sendIndex < tokenCount; sendIndex += mPairInfo.runChannelCount)
         {
             int tokenIndex = sendIndexMapping == nullptr ? sendIndex : sendIndexMapping[sendIndex];
@@ -1140,6 +1146,10 @@ public:
         int recvIndex = mPairInfo.channel;
         uint32_t phaseParity = 0;
         bool needRelease = false;
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+        cudaGridDependencySynchronize();
+        cudaTriggerProgrammaticLaunchCompletion();
+#endif
         for (; recvIndex < tokenCount; recvIndex += mPairInfo.runChannelCount)
         {
             int tokenIndex = recvIndexMapping == nullptr ? recvIndex : recvIndexMapping[recvIndex];
@@ -1459,7 +1469,8 @@ void moeAllToAll(FusedMoeCommKernelParam params, FusedMoeWorkspace workspace, cu
 
     dim3 block = FusedMoeCommunicator::getLaunchBlockDim(groupCountPerCta);
     dim3 grid = FusedMoeCommunicator::getLaunchGridDim(params.worldInfo.epInfo.epSize, groupCountPerCta);
-    kernelFn<<<grid, block, totalDynamicShmSize, stream>>>(params, workspace, hasBasicFields);
+    launchWithPdlWhenEnabled(
+        "moeAllToAll", kernelFn, grid, block, totalDynamicShmSize, stream, params, workspace, hasBasicFields);
     TLLM_CUDA_CHECK(cudaGetLastError());
 }
 
 
@@ -20,6 +20,7 @@
 #include <cuda_runtime_api.h>
 
 #include "tensorrt_llm/common/cudaUtils.h"
+#include "tensorrt_llm/common/envUtils.h"
 #include "tensorrt_llm/kernels/moeCommKernelsCommon.h"
 
 namespace tensorrt_llm
 
@@ -19,6 +19,7 @@
 #include <cub/cub.cuh>
 
 #include "tensorrt_llm/common/cudaUtils.h"
+#include "tensorrt_llm/common/envUtils.h"
 #include "tensorrt_llm/kernels/moeLoadBalance/moeLoadBalanceKernels.h"
 
 namespace cg = cooperative_groups;
@@ -28,6 +29,8 @@ namespace tensorrt_llm
 namespace kernels
 {
 
+using tensorrt_llm::common::launchWithPdlWhenEnabled;
+
 int getOwnerDevice(unsigned long long int stepAndOwner)
 {
     return static_cast<int>(stepAndOwner & MoeLoadBalanceSingleLayerSignal::kDevice);
@@ -71,6 +74,11 @@ __device__ __forceinline__ void moeWaitSignalForGpuStageFunc(MoeLoadBalanceSingl
 
 __global__ void moeWaitSignalForGpuStageKernel(MoeLoadBalanceSingleLayerSignal* signal, int* enabled)
 {
+
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
     if (threadIdx.x == 0 and blockIdx.x == 0)
     {
         moeWaitSignalForGpuStageFunc(signal, enabled);
@@ -79,6 +87,11 @@ __global__ void moeWaitSignalForGpuStageKernel(MoeLoadBalanceSingleLayerSignal*
 
 __global__ void moeSetSignalForCpuStageKernel(MoeLoadBalanceSingleLayerSignal* signal)
 {
+
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
     if (threadIdx.x == 0 and blockIdx.x == 0)
     {
         unsigned long long int loaded = signal->stepAndOwner;
@@ -91,7 +104,8 @@ __global__ void moeSetSignalForCpuStageKernel(MoeLoadBalanceSingleLayerSignal* s
 
 void moeWaitSignalForGpuStageDevice(MoeLoadBalanceSingleLayerSignal* signal, int* enabled, cudaStream_t stream)
 {
-    moeWaitSignalForGpuStageKernel<<<1, 1, 0, stream>>>(signal, enabled);
+    launchWithPdlWhenEnabled(
+        "moeWaitSignalForGpuStage", moeWaitSignalForGpuStageKernel, 1, 1, 0, stream, signal, enabled);
 }
 
 void moeWaitSignalForGpuStageForTest(MoeLoadBalanceSingleLayerSignal* signal, int* enabled)
@@ -119,7 +133,7 @@ void moeWaitSignalForGpuStageForTest(MoeLoadBalanceSingleLayerSignal* signal, in
 
 void moeSetSignalForCpuStageDevice(MoeLoadBalanceSingleLayerSignal* signal, cudaStream_t stream)
 {
-    moeSetSignalForCpuStageKernel<<<1, 1, 0, stream>>>(signal);
+    launchWithPdlWhenEnabled("moeSetSignalForCpuStage", moeSetSignalForCpuStageKernel, 1, 1, 0, stream, signal);
 }
 
 void moeSetSignalForCpuStageForTest(MoeLoadBalanceSingleLayerSignal* signal)
@@ -138,6 +152,10 @@ __global__ void zeroExpertTokenCountKernel(MoeLoadBalanceMetaInfo metaInfo, int*
     TYPE oldExpertTokenCount = {0};
     int* expertTokenCountPtr = expertTokenCount + metaInfo.expertCount * blockIdx.x;
     TYPE* typedExpertTokenCountPtr = reinterpret_cast<TYPE*>(expertTokenCountPtr);
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
     typedExpertTokenCountPtr[threadIdx.x] = oldExpertTokenCount;
 }
 
@@ -149,6 +167,10 @@ __global__ void shiftWindowKernel(MoeLoadBalanceMetaInfo metaInfo, int* const en
         return;
     }
     TYPE oldExpertTokenCount = {0};
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
     if (blockIdx.x > 0)
     {
         int* oldExpertTokenCountPtr = expertTokenCount + metaInfo.expertCount * (blockIdx.x - 1);
@@ -177,6 +199,10 @@ __global__ void statisticKernel(MoeLoadBalanceMetaInfo metaInfo, int* expertToke
         sharedExpertCount[i] = 0;
     }
     __syncthreads();
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
     for (int idx = threadIdx.x + blockIdx.x * blockDim.x; idx < totalEltCount; idx += gridDim.x * blockDim.x)
     {
         int expertId = gatheredRawExpertIds[idx];
@@ -200,6 +226,10 @@ __global__ void updateLoadFactorKernel(MoeLoadBalanceMetaInfo metaInfo, MoeLoadB
         return;
     }
     int expertIdx = blockIdx.x * blockDim.x + threadIdx.x;
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
     int expertTokenCount = expertTokenCountPtr[expertIdx];
     float* loadFactor = statisticInfo.expertLoadFactor;
     loadFactor[expertIdx] = loadFactor[expertIdx] * statisticInfo.decayFactor + expertTokenCount;
@@ -232,6 +262,7 @@ void moeStatisticDevice(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBalanceStatistic
             = {&metaInfo, static_cast<void*>(const_cast<int**>(&enabled)), static_cast<void*>(&expertTokenCount)};
         TLLM_CHECK_WITH_INFO(
             threadCount <= 1024, "expertCount=%d is too large and not supported now.", metaInfo.expertCount);
+        // TODO: add PDL support with cooperative launch
         TLLM_CUDA_CHECK(cudaLaunchCooperativeKernel(kernelFunc, gridDim, blockDim, &args[0], 0, stream));
     }
 
@@ -245,7 +276,7 @@ void moeStatisticDevice(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBalanceStatistic
             blockCount = smCount;
         }
         int sharedMemorySize = metaInfo.expertCount * sizeof(int);
-        statisticKernel<<<blockCount, threadCount, sharedMemorySize, stream>>>(
+        launchWithPdlWhenEnabled("statisticKernel", statisticKernel, blockCount, threadCount, sharedMemorySize, stream,
             metaInfo, statisticInfo.expertTokenCount, totalEltCount, enabled, gatheredRawExpertIds);
     }
 
@@ -254,7 +285,7 @@ void moeStatisticDevice(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBalanceStatistic
         // only last stage need update load factor.
         int threadCount = 128;
         int blockCount = (metaInfo.expertCount + threadCount - 1) / threadCount;
-        updateLoadFactorKernel<<<blockCount, threadCount, 0, stream>>>(
+        launchWithPdlWhenEnabled("updateLoadFactor", updateLoadFactorKernel, blockCount, threadCount, 0, stream,
             metaInfo, statisticInfo, statisticInfo.expertTokenCount, enabled);
     }
 }
@@ -282,11 +313,10 @@ void moeHierarchicalStatisticLocalDevice(MoeLoadBalanceMetaInfo metaInfo, int nu
         }
         dim3 gridDim(1);
         dim3 blockDim(threadCount);
-        void* args[]
-            = {&metaInfo, static_cast<void*>(const_cast<int**>(&enabled)), static_cast<void*>(&localExpertTokenCount)};
         TLLM_CHECK_WITH_INFO(
             threadCount <= 1024, "expertCount=%d is too large and not supported now.", metaInfo.expertCount);
-        TLLM_CUDA_CHECK(cudaLaunchKernel(kernelFunc, gridDim, blockDim, &args[0], 0, stream));
+        launchWithPdlWhenEnabled(
+            "zeroExpertTokenCount", kernelFunc, gridDim, blockDim, 0, stream, metaInfo, enabled, localExpertTokenCount);
     }
 
     {
@@ -299,7 +329,7 @@ void moeHierarchicalStatisticLocalDevice(MoeLoadBalanceMetaInfo metaInfo, int nu
             blockCount = smCount;
         }
         int sharedMemorySize = metaInfo.expertCount * sizeof(int);
-        statisticKernel<<<blockCount, threadCount, sharedMemorySize, stream>>>(
+        launchWithPdlWhenEnabled("statisticKernel", statisticKernel, blockCount, threadCount, sharedMemorySize, stream,
             metaInfo, localExpertTokenCount, totalEltCount, enabled, localRawExpertIds);
     }
 }
@@ -309,8 +339,8 @@ void moeHierarchicalStatisticUpdate(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBala
 {
     int threadCount = 128;
     int blockCount = (metaInfo.expertCount + threadCount - 1) / threadCount;
-    updateLoadFactorKernel<<<blockCount, threadCount, 0, stream>>>(
-        metaInfo, statisticInfo, globalExpertTokenCount, enabled);
+    launchWithPdlWhenEnabled("updateLoadFactor", updateLoadFactorKernel, blockCount, threadCount, 0, stream, metaInfo,
+        statisticInfo, globalExpertTokenCount, enabled);
 }
 
 template <int MAX_EXPERT_COUNT = 1024, int THREAD_COUNT = 256, int ITEM_PER_THREAD = 4>
@@ -320,13 +350,18 @@ __global__ void moeComputeRouteNoRedundantKernel(MoeLoadBalanceMetaInfo metaInfo
     extern __shared__ int16_t sharedGlobalSlotIdsInfo[];
     int expertIds[ITEM_PER_THREAD];
     int slotIds[ITEM_PER_THREAD];
+
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
+
     for (int slotId = threadIdx.x; slotId < metaInfo.epSize * metaInfo.slotCountPerRank; slotId += THREAD_COUNT)
     {
         sharedGlobalSlotIdsInfo[slotId] = placementInfo.globalSlotIds[slotId];
     }
 
     int blockOffset = blockIdx.x * THREAD_COUNT * ITEM_PER_THREAD;
-
     for (; blockOffset < tokenCount * metaInfo.topK; blockOffset += gridDim.x * THREAD_COUNT * ITEM_PER_THREAD)
     {
         int tokenIdxBase = blockOffset + threadIdx.x;
@@ -379,6 +414,12 @@ __global__ void moeComputeRouteKernel(MoeLoadBalanceMetaInfo metaInfo, MoePlacem
 
     __shared__ int sharedArbitrateExpertId[THREAD_COUNT * ITEM_PER_THREAD];
     __shared__ int sharedExpertCount[MAX_EXPERT_COUNT];
+
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
+
     for (int expertIdx = threadIdx.x; expertIdx < metaInfo.expertCount; expertIdx += THREAD_COUNT)
     {
         int replicaCount = placementInfo.expertReplicaCount[expertIdx];
@@ -484,6 +525,11 @@ __global__ void moeComputeRouteSortKernel(MoeLoadBalanceMetaInfo metaInfo, MoePl
     __shared__ int sharedSortedExpertId[THREAD_COUNT * ITEM_PER_THREAD];
     __shared__ int sharedExpertStartThread[MAX_EXPERT_COUNT];
 
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+    cudaGridDependencySynchronize();
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
+
     for (int expertIdx = threadIdx.x; expertIdx < metaInfo.expertCount; expertIdx += THREAD_COUNT)
     {
         sharedExpertTokenCount[expertIdx] = 0;
@@ -500,7 +546,6 @@ __global__ void moeComputeRouteSortKernel(MoeLoadBalanceMetaInfo metaInfo, MoePl
     __syncthreads();
 
     int expertIds[ITEM_PER_THREAD];
-
     for (int blockOffset = blockIdx.x * THREAD_COUNT * ITEM_PER_THREAD; blockOffset < tokenCount * metaInfo.topK;
          blockOffset += gridDim.x * THREAD_COUNT * ITEM_PER_THREAD)
     {
@@ -586,14 +631,15 @@ void moeComputeRouteDevice(MoeLoadBalanceMetaInfo metaInfo, MoePlacementInfo pla
     int dynamicShmSize = sizeof(int16_t) * metaInfo.epSize * metaInfo.slotCountPerRank;
     if (metaInfo.expertCount == metaInfo.epSize * metaInfo.slotCountPerRank)
     {
+        auto* kernelFn = moeComputeRouteNoRedundantKernel<1024, kThreadCount, kEltPerThread>;
         // no redundant expert, so we don't need complex routing, but just assign to the correct solt.
-        moeComputeRouteNoRedundantKernel<1024, kThreadCount, kEltPerThread>
-            <<<blockCount, kThreadCount, dynamicShmSize, stream>>>(
-                metaInfo, placementInfo, tokenSelectedExperts, tokenRoutedSlotIds, tokenCount);
+        launchWithPdlWhenEnabled("moeComputeRouteNoRedundant", kernelFn, blockCount, kThreadCount, dynamicShmSize,
+            stream, metaInfo, placementInfo, tokenSelectedExperts, tokenRoutedSlotIds, tokenCount);
     }
     else
     {
-        moeComputeRouteKernel<1024, kThreadCount, kEltPerThread><<<blockCount, kThreadCount, dynamicShmSize, stream>>>(
+        auto* kernelFn = moeComputeRouteKernel<1024, kThreadCount, kEltPerThread>;
+        launchWithPdlWhenEnabled("moeComputeRoute", kernelFn, blockCount, kThreadCount, dynamicShmSize, stream,
             metaInfo, placementInfo, tokenSelectedExperts, tokenRoutedSlotIds, tokenCount, offsetByEpRank);
     }
 }
Original file line number	Diff line number	Diff line change
`@@ -291,8 +291,9 @@ class CacheSender::Impl`
`291`	`291`	`mSelfState.setCommState(std::move(commState));`
`292`	`292`	`}`
`293`	`293`
`294`		`- [[nodiscard]] size_t getCounterpartsCount(LlmRequest::RequestIdType requestId) const`
	`294`	`+ [[nodiscard]] size_t getCounterpartsCount(LlmRequest::RequestIdType requestId)`
`295`	`295`	`{`
	`296`	`+ std::unique_lock<std::mutex> lock(mMtxForMap);`
`296`	`297`	`auto it = mRequestToSession.find(requestId);`
`297`	`298`	`TLLM_CHECK(it != mRequestToSession.end());`
`298`	`299`	`return it->second.getConnections().size();`
Original file line number	Diff line number	Diff line change
`@@ -19,6 +19,7 @@`
`19`	`19`	`#include <cub/cub.cuh>`
`20`	`20`
`21`	`21`	`#include "tensorrt_llm/common/cudaUtils.h"`
	`22`	`+#include "tensorrt_llm/common/envUtils.h"`
`22`	`23`	`#include "tensorrt_llm/kernels/moeLoadBalance/moeLoadBalanceKernels.h"`
`23`	`24`
`24`	`25`	`namespace cg = cooperative_groups;`
`@@ -28,6 +29,8 @@ namespace tensorrt_llm`
`28`	`29`	`namespace kernels`
`29`	`30`	`{`
`30`	`31`
	`32`	`+using tensorrt_llm::common::launchWithPdlWhenEnabled;`
	`33`	`+`
`31`	`34`	`int getOwnerDevice(unsigned long long int stepAndOwner)`
`32`	`35`	`{`
`33`	`36`	`return static_cast<int>(stepAndOwner & MoeLoadBalanceSingleLayerSignal::kDevice);`
`@@ -71,6 +74,11 @@ __device__ __forceinline__ void moeWaitSignalForGpuStageFunc(MoeLoadBalanceSingl`
`71`	`74`
`72`	`75`	`__global__ void moeWaitSignalForGpuStageKernel(MoeLoadBalanceSingleLayerSignal* signal, int* enabled)`
`73`	`76`	`{`
	`77`	`+`
	`78`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`79`	`+ cudaGridDependencySynchronize();`
	`80`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`81`	`+#endif`
`74`	`82`	`if (threadIdx.x == 0 and blockIdx.x == 0)`
`75`	`83`	`{`
`76`	`84`	`moeWaitSignalForGpuStageFunc(signal, enabled);`
`@@ -79,6 +87,11 @@ __global__ void moeWaitSignalForGpuStageKernel(MoeLoadBalanceSingleLayerSignal*`
`79`	`87`
`80`	`88`	`__global__ void moeSetSignalForCpuStageKernel(MoeLoadBalanceSingleLayerSignal* signal)`
`81`	`89`	`{`
	`90`	`+`
	`91`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`92`	`+ cudaGridDependencySynchronize();`
	`93`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`94`	`+#endif`
`82`	`95`	`if (threadIdx.x == 0 and blockIdx.x == 0)`
`83`	`96`	`{`
`84`	`97`	`unsigned long long int loaded = signal->stepAndOwner;`
`@@ -91,7 +104,8 @@ __global__ void moeSetSignalForCpuStageKernel(MoeLoadBalanceSingleLayerSignal* s`
`91`	`104`
`92`	`105`	`void moeWaitSignalForGpuStageDevice(MoeLoadBalanceSingleLayerSignal* signal, int* enabled, cudaStream_t stream)`
`93`	`106`	`{`
`94`		`- moeWaitSignalForGpuStageKernel<<<1, 1, 0, stream>>>(signal, enabled);`
	`107`	`+ launchWithPdlWhenEnabled(`
	`108`	`+ "moeWaitSignalForGpuStage", moeWaitSignalForGpuStageKernel, 1, 1, 0, stream, signal, enabled);`
`95`	`109`	`}`
`96`	`110`
`97`	`111`	`void moeWaitSignalForGpuStageForTest(MoeLoadBalanceSingleLayerSignal* signal, int* enabled)`
`@@ -119,7 +133,7 @@ void moeWaitSignalForGpuStageForTest(MoeLoadBalanceSingleLayerSignal* signal, in`
`119`	`133`
`120`	`134`	`void moeSetSignalForCpuStageDevice(MoeLoadBalanceSingleLayerSignal* signal, cudaStream_t stream)`
`121`	`135`	`{`
`122`		`- moeSetSignalForCpuStageKernel<<<1, 1, 0, stream>>>(signal);`
	`136`	`+ launchWithPdlWhenEnabled("moeSetSignalForCpuStage", moeSetSignalForCpuStageKernel, 1, 1, 0, stream, signal);`
`123`	`137`	`}`
`124`	`138`
`125`	`139`	`void moeSetSignalForCpuStageForTest(MoeLoadBalanceSingleLayerSignal* signal)`
`@@ -138,6 +152,10 @@ __global__ void zeroExpertTokenCountKernel(MoeLoadBalanceMetaInfo metaInfo, int*`
`138`	`152`	`TYPE oldExpertTokenCount = {0};`
`139`	`153`	`int* expertTokenCountPtr = expertTokenCount + metaInfo.expertCount * blockIdx.x;`
`140`	`154`	`TYPE* typedExpertTokenCountPtr = reinterpret_cast<TYPE*>(expertTokenCountPtr);`
	`155`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`156`	`+ cudaGridDependencySynchronize();`
	`157`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`158`	`+#endif`
`141`	`159`	`typedExpertTokenCountPtr[threadIdx.x] = oldExpertTokenCount;`
`142`	`160`	`}`
`143`	`161`
`@@ -149,6 +167,10 @@ __global__ void shiftWindowKernel(MoeLoadBalanceMetaInfo metaInfo, int* const en`
`149`	`167`	`return;`
`150`	`168`	`}`
`151`	`169`	`TYPE oldExpertTokenCount = {0};`
	`170`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`171`	`+ cudaGridDependencySynchronize();`
	`172`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`173`	`+#endif`
`152`	`174`	`if (blockIdx.x > 0)`
`153`	`175`	`{`
`154`	`176`	`int* oldExpertTokenCountPtr = expertTokenCount + metaInfo.expertCount * (blockIdx.x - 1);`
`@@ -177,6 +199,10 @@ __global__ void statisticKernel(MoeLoadBalanceMetaInfo metaInfo, int* expertToke`
`177`	`199`	`sharedExpertCount[i] = 0;`
`178`	`200`	`}`
`179`	`201`	`__syncthreads();`
	`202`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`203`	`+ cudaGridDependencySynchronize();`
	`204`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`205`	`+#endif`
`180`	`206`	`for (int idx = threadIdx.x + blockIdx.x * blockDim.x; idx < totalEltCount; idx += gridDim.x * blockDim.x)`
`181`	`207`	`{`
`182`	`208`	`int expertId = gatheredRawExpertIds[idx];`
`@@ -200,6 +226,10 @@ __global__ void updateLoadFactorKernel(MoeLoadBalanceMetaInfo metaInfo, MoeLoadB`
`200`	`226`	`return;`
`201`	`227`	`}`
`202`	`228`	`int expertIdx = blockIdx.x * blockDim.x + threadIdx.x;`
	`229`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`230`	`+ cudaGridDependencySynchronize();`
	`231`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`232`	`+#endif`
`203`	`233`	`int expertTokenCount = expertTokenCountPtr[expertIdx];`
`204`	`234`	`float* loadFactor = statisticInfo.expertLoadFactor;`
`205`	`235`	`loadFactor[expertIdx] = loadFactor[expertIdx] * statisticInfo.decayFactor + expertTokenCount;`
`@@ -232,6 +262,7 @@ void moeStatisticDevice(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBalanceStatistic`
`232`	`262`	`= {&metaInfo, static_cast<void>(const_cast<int>(&enabled)), static_cast<void>(&expertTokenCount)};`
`233`	`263`	`TLLM_CHECK_WITH_INFO(`
`234`	`264`	`threadCount <= 1024, "expertCount=%d is too large and not supported now.", metaInfo.expertCount);`
	`265`	`+ // TODO: add PDL support with cooperative launch`
`235`	`266`	`TLLM_CUDA_CHECK(cudaLaunchCooperativeKernel(kernelFunc, gridDim, blockDim, &args[0], 0, stream));`
`236`	`267`	`}`
`237`	`268`
`@@ -245,7 +276,7 @@ void moeStatisticDevice(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBalanceStatistic`
`245`	`276`	`blockCount = smCount;`
`246`	`277`	`}`
`247`	`278`	`int sharedMemorySize = metaInfo.expertCount * sizeof(int);`
`248`		`- statisticKernel<<<blockCount, threadCount, sharedMemorySize, stream>>>(`
	`279`	`+ launchWithPdlWhenEnabled("statisticKernel", statisticKernel, blockCount, threadCount, sharedMemorySize, stream,`
`249`	`280`	`metaInfo, statisticInfo.expertTokenCount, totalEltCount, enabled, gatheredRawExpertIds);`
`250`	`281`	`}`
`251`	`282`
`@@ -254,7 +285,7 @@ void moeStatisticDevice(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBalanceStatistic`
`254`	`285`	`// only last stage need update load factor.`
`255`	`286`	`int threadCount = 128;`
`256`	`287`	`int blockCount = (metaInfo.expertCount + threadCount - 1) / threadCount;`
`257`		`- updateLoadFactorKernel<<<blockCount, threadCount, 0, stream>>>(`
	`288`	`+ launchWithPdlWhenEnabled("updateLoadFactor", updateLoadFactorKernel, blockCount, threadCount, 0, stream,`
`258`	`289`	`metaInfo, statisticInfo, statisticInfo.expertTokenCount, enabled);`
`259`	`290`	`}`
`260`	`291`	`}`
`@@ -282,11 +313,10 @@ void moeHierarchicalStatisticLocalDevice(MoeLoadBalanceMetaInfo metaInfo, int nu`
`282`	`313`	`}`
`283`	`314`	`dim3 gridDim(1);`
`284`	`315`	`dim3 blockDim(threadCount);`
`285`		`- void* args[]`
`286`		`- = {&metaInfo, static_cast<void>(const_cast<int>(&enabled)), static_cast<void>(&localExpertTokenCount)};`
`287`	`316`	`TLLM_CHECK_WITH_INFO(`
`288`	`317`	`threadCount <= 1024, "expertCount=%d is too large and not supported now.", metaInfo.expertCount);`
`289`		`- TLLM_CUDA_CHECK(cudaLaunchKernel(kernelFunc, gridDim, blockDim, &args[0], 0, stream));`
	`318`	`+ launchWithPdlWhenEnabled(`
	`319`	`+ "zeroExpertTokenCount", kernelFunc, gridDim, blockDim, 0, stream, metaInfo, enabled, localExpertTokenCount);`
`290`	`320`	`}`
`291`	`321`
`292`	`322`	`{`
`@@ -299,7 +329,7 @@ void moeHierarchicalStatisticLocalDevice(MoeLoadBalanceMetaInfo metaInfo, int nu`
`299`	`329`	`blockCount = smCount;`
`300`	`330`	`}`
`301`	`331`	`int sharedMemorySize = metaInfo.expertCount * sizeof(int);`
`302`		`- statisticKernel<<<blockCount, threadCount, sharedMemorySize, stream>>>(`
	`332`	`+ launchWithPdlWhenEnabled("statisticKernel", statisticKernel, blockCount, threadCount, sharedMemorySize, stream,`
`303`	`333`	`metaInfo, localExpertTokenCount, totalEltCount, enabled, localRawExpertIds);`
`304`	`334`	`}`
`305`	`335`	`}`
`@@ -309,8 +339,8 @@ void moeHierarchicalStatisticUpdate(MoeLoadBalanceMetaInfo metaInfo, MoeLoadBala`
`309`	`339`	`{`
`310`	`340`	`int threadCount = 128;`
`311`	`341`	`int blockCount = (metaInfo.expertCount + threadCount - 1) / threadCount;`
`312`		`- updateLoadFactorKernel<<<blockCount, threadCount, 0, stream>>>(`
`313`		`- metaInfo, statisticInfo, globalExpertTokenCount, enabled);`
	`342`	`+ launchWithPdlWhenEnabled("updateLoadFactor", updateLoadFactorKernel, blockCount, threadCount, 0, stream, metaInfo,`
	`343`	`+ statisticInfo, globalExpertTokenCount, enabled);`
`314`	`344`	`}`
`315`	`345`
`316`	`346`	`template <int MAX_EXPERT_COUNT = 1024, int THREAD_COUNT = 256, int ITEM_PER_THREAD = 4>`
`@@ -320,13 +350,18 @@ __global__ void moeComputeRouteNoRedundantKernel(MoeLoadBalanceMetaInfo metaInfo`
`320`	`350`	`extern __shared__ int16_t sharedGlobalSlotIdsInfo[];`
`321`	`351`	`int expertIds[ITEM_PER_THREAD];`
`322`	`352`	`int slotIds[ITEM_PER_THREAD];`
	`353`	`+`
	`354`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`355`	`+ cudaGridDependencySynchronize();`
	`356`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`357`	`+#endif`
	`358`	`+`
`323`	`359`	`for (int slotId = threadIdx.x; slotId < metaInfo.epSize * metaInfo.slotCountPerRank; slotId += THREAD_COUNT)`
`324`	`360`	`{`
`325`	`361`	`sharedGlobalSlotIdsInfo[slotId] = placementInfo.globalSlotIds[slotId];`
`326`	`362`	`}`
`327`	`363`
`328`	`364`	`int blockOffset = blockIdx.x * THREAD_COUNT * ITEM_PER_THREAD;`
`329`		`-`
`330`	`365`	`for (; blockOffset < tokenCount * metaInfo.topK; blockOffset += gridDim.x * THREAD_COUNT * ITEM_PER_THREAD)`
`331`	`366`	`{`
`332`	`367`	`int tokenIdxBase = blockOffset + threadIdx.x;`
`@@ -379,6 +414,12 @@ __global__ void moeComputeRouteKernel(MoeLoadBalanceMetaInfo metaInfo, MoePlacem`
`379`	`414`
`380`	`415`	`__shared__ int sharedArbitrateExpertId[THREAD_COUNT * ITEM_PER_THREAD];`
`381`	`416`	`__shared__ int sharedExpertCount[MAX_EXPERT_COUNT];`
	`417`	`+`
	`418`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`419`	`+ cudaGridDependencySynchronize();`
	`420`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`421`	`+#endif`
	`422`	`+`
`382`	`423`	`for (int expertIdx = threadIdx.x; expertIdx < metaInfo.expertCount; expertIdx += THREAD_COUNT)`
`383`	`424`	`{`
`384`	`425`	`int replicaCount = placementInfo.expertReplicaCount[expertIdx];`
`@@ -484,6 +525,11 @@ __global__ void moeComputeRouteSortKernel(MoeLoadBalanceMetaInfo metaInfo, MoePl`
`484`	`525`	`__shared__ int sharedSortedExpertId[THREAD_COUNT * ITEM_PER_THREAD];`
`485`	`526`	`__shared__ int sharedExpertStartThread[MAX_EXPERT_COUNT];`
`486`	`527`
	`528`	`+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
	`529`	`+ cudaGridDependencySynchronize();`
	`530`	`+ cudaTriggerProgrammaticLaunchCompletion();`
	`531`	`+#endif`
	`532`	`+`
`487`	`533`	`for (int expertIdx = threadIdx.x; expertIdx < metaInfo.expertCount; expertIdx += THREAD_COUNT)`
`488`	`534`	`{`
`489`	`535`	`sharedExpertTokenCount[expertIdx] = 0;`
`@@ -500,7 +546,6 @@ __global__ void moeComputeRouteSortKernel(MoeLoadBalanceMetaInfo metaInfo, MoePl`
`500`	`546`	`__syncthreads();`
`501`	`547`
`502`	`548`	`int expertIds[ITEM_PER_THREAD];`
`503`		`-`
`504`	`549`	`for (int blockOffset = blockIdx.x * THREAD_COUNT * ITEM_PER_THREAD; blockOffset < tokenCount * metaInfo.topK;`
`505`	`550`	`blockOffset += gridDim.x * THREAD_COUNT * ITEM_PER_THREAD)`
`506`	`551`	`{`
`@@ -586,14 +631,15 @@ void moeComputeRouteDevice(MoeLoadBalanceMetaInfo metaInfo, MoePlacementInfo pla`
`586`	`631`	`int dynamicShmSize = sizeof(int16_t) * metaInfo.epSize * metaInfo.slotCountPerRank;`
`587`	`632`	`if (metaInfo.expertCount == metaInfo.epSize * metaInfo.slotCountPerRank)`
`588`	`633`	`{`
	`634`	`+ auto* kernelFn = moeComputeRouteNoRedundantKernel<1024, kThreadCount, kEltPerThread>;`
`589`	`635`	`// no redundant expert, so we don't need complex routing, but just assign to the correct solt.`
`590`		`- moeComputeRouteNoRedundantKernel<1024, kThreadCount, kEltPerThread>`
`591`		`- <<<blockCount, kThreadCount, dynamicShmSize, stream>>>(`
`592`		`- metaInfo, placementInfo, tokenSelectedExperts, tokenRoutedSlotIds, tokenCount);`
	`636`	`+ launchWithPdlWhenEnabled("moeComputeRouteNoRedundant", kernelFn, blockCount, kThreadCount, dynamicShmSize,`
	`637`	`+ stream, metaInfo, placementInfo, tokenSelectedExperts, tokenRoutedSlotIds, tokenCount);`
`593`	`638`	`}`
`594`	`639`	`else`
`595`	`640`	`{`
`596`		`- moeComputeRouteKernel<1024, kThreadCount, kEltPerThread><<<blockCount, kThreadCount, dynamicShmSize, stream>>>(`
	`641`	`+ auto* kernelFn = moeComputeRouteKernel<1024, kThreadCount, kEltPerThread>;`
	`642`	`+ launchWithPdlWhenEnabled("moeComputeRoute", kernelFn, blockCount, kThreadCount, dynamicShmSize, stream,`
`597`	`643`	`metaInfo, placementInfo, tokenSelectedExperts, tokenRoutedSlotIds, tokenCount, offsetByEpRank);`
`598`	`644`	`}`
`599`	`645`	`}`