limit num of tactics to tune for

rosenrodt · rosenrodt · commit 757579a7c0f9 · 2025-11-09T16:22:24.000+08:00
Signed-off-by: Anthony Chang &lt;27950904+rosenrodt@users.noreply.github.com&gt;
diff --git a/cpp/tensorrt_llm/kernels/trtllmGenKernels/blockScaleMoe/runner.cu b/cpp/tensorrt_llm/kernels/trtllmGenKernels/blockScaleMoe/runner.cu
@@ -251,7 +251,9 @@ void Runner::run(void* hiddenState, void* hiddenStateScale, void* weights, void*
     if (mDtypeWeights == btg::Dtype::MxE2m1 && mDtypeAct == btg::Dtype::MxE4m3)
     {
         // The multiple is no less than 128 as TMA requires it for CU_TENSOR_MAP_DATA_TYPE_16U4_ALIGN16B types
-        // FIXME: enforce valid hidden dim to be multiple of 512 due to unhandled OOB read in routeAct
+        // FIXME: enforce valid hidden dim to be multiple of 512 due to unhandled OOB read in routeAct. Please keep this
+        // in sync with
+        // tensorrt_llm/_torch/modules/fused_moe/quantization.py:MXFP4WeightTRTLLMGenFusedMoEMethod.input_hidden_alignment
         validHiddenSize = tensorrt_llm::common::roundUp(validHiddenSize, 512);
     }
     auto maxNumCtasInBatchDim = Routing::getMaxNumCtasInBatchDim(numTokens, topK, numExperts, mTileTokensDim);
diff --git a/cpp/tensorrt_llm/kernels/trtllmGenKernels/blockScaleMoe/runner.h b/cpp/tensorrt_llm/kernels/trtllmGenKernels/blockScaleMoe/runner.h
@@ -22,6 +22,8 @@
 #include "tensorrt_llm/common/cudaUtils.h"
 #include "tensorrt_llm/kernels/trtllmGenKernels/batchedGemm/KernelRunner.h"
 #include "tensorrt_llm/kernels/trtllmGenKernels/batchedGemm/trtllmGen_bmm_export/trtllm/gen/DtypeDecl.h"
+#include "tensorrt_llm/thop/thUtils.h"
+#include <set>
 #include <string>
 
 namespace tensorrt_llm
@@ -31,6 +33,33 @@ namespace kernels
 namespace trtllmGenFp8BlockScaleMoe
 {
 
+inline std::set<int32_t> computeSelectedTileN(std::vector<int32_t> const& supported_tile_nums, int64_t const num_tokens,
+    int64_t const top_k, int64_t const num_local_experts)
+{
+    float const avg_tokens_per_expert = static_cast<float>(num_tokens * top_k) / num_local_experts;
+    // assume supported_tile_nums is sorted
+    int32_t tile_tokens_dim = std::clamp(
+        torch_ext::nextPowerOfTwo(avg_tokens_per_expert), supported_tile_nums.front(), supported_tile_nums.back());
+    auto it = std::find(supported_tile_nums.begin(), supported_tile_nums.end(), tile_tokens_dim);
+
+    std::set<int32_t> selected_tile_nums;
+    selected_tile_nums.insert(tile_tokens_dim);
+    if (std::next(it) != supported_tile_nums.end())
+    {
+        selected_tile_nums.insert(*std::next(it));
+        if (std::next(std::next(it)) != supported_tile_nums.end())
+        {
+            selected_tile_nums.insert(*std::next(std::next(it)));
+        }
+    }
+    if (it != supported_tile_nums.begin())
+    {
+        selected_tile_nums.insert(*std::prev(it));
+    }
+
+    return selected_tile_nums;
+}
+
 namespace Routing
 {
 
diff --git a/cpp/tensorrt_llm/thop/fp4BlockScaleMoe.cpp b/cpp/tensorrt_llm/thop/fp4BlockScaleMoe.cpp
@@ -27,6 +27,7 @@ namespace torch_ext
 namespace btg = batchedGemm::trtllm::gen;
 using tensorrt_llm::kernels::trtllmGenFp8BlockScaleMoe::Routing::RoutingMethodType;
 using MoeRunnerType = tensorrt_llm::kernels::trtllmGenFp8BlockScaleMoe::MoE::Runner;
+using tensorrt_llm::kernels::trtllmGenFp8BlockScaleMoe::computeSelectedTileN;
 
 std::vector<torch::Tensor> run_fp4_block_scale_moe_runner(torch::optional<torch::Tensor> const& routing_logits,
     torch::optional<torch::Tensor> const& routing_bias, torch::Tensor const& hidden_states,
@@ -419,6 +420,11 @@ class FP4BlockScaleMoeRunner : public torch::CustomClassHolder
         std::vector<std::vector<int64_t>> tactics;
         for (auto& [tileN, runner] : mRunners)
         {
+            auto chosen = computeSelectedTileN(mSupportedTileN, numTokens, topK, numLocalExperts);
+            if (chosen.find(tileN) == chosen.end())
+            {
+                continue;
+            }
             auto config_indices_per_runner
                 = runner->getValidConfigIndices(topK, hiddenSize, intermediateSize, numLocalExperts, numTokens);
             for (auto cfg : config_indices_per_runner)
@@ -500,6 +506,11 @@ class FP8FP4BlockScaleMoeRunner : public torch::CustomClassHolder
         std::vector<std::vector<int64_t>> tactics;
         for (auto& [tileN, runner] : mRunners)
         {
+            auto chosen = computeSelectedTileN(mSupportedTileN, numTokens, topK, numLocalExperts);
+            if (chosen.find(tileN) == chosen.end())
+            {
+                continue;
+            }
             auto config_indices_per_runner
                 = runner->getValidConfigIndices(topK, hiddenSize, intermediateSize, numLocalExperts, numTokens);
             for (auto cfg : config_indices_per_runner)
diff --git a/cpp/tensorrt_llm/thop/fp8BlockScaleMoe.cpp b/cpp/tensorrt_llm/thop/fp8BlockScaleMoe.cpp
@@ -32,6 +32,7 @@ namespace torch_ext
 namespace btg = batchedGemm::trtllm::gen;
 using tensorrt_llm::kernels::trtllmGenFp8BlockScaleMoe::Routing::RoutingMethodType;
 using MoeRunnerType = tensorrt_llm::kernels::trtllmGenFp8BlockScaleMoe::MoE::Runner;
+using tensorrt_llm::kernels::trtllmGenFp8BlockScaleMoe::computeSelectedTileN;
 
 at::Tensor run_fp8_block_scale_moe(at::optional<at::Tensor> const& routing_logits,
     std::optional<at::Tensor> const& routing_bias, at::Tensor const& hidden_states,
@@ -335,6 +336,11 @@ class FP8BlockScaleMoeRunner : public torch::CustomClassHolder
         std::vector<std::vector<int64_t>> tactics;
         for (auto& [tileN, runner] : mRunners)
         {
+            auto chosen = computeSelectedTileN(mSupportedTileN, numTokens, topK, numLocalExperts);
+            if (chosen.find(tileN) == chosen.end())
+            {
+                continue;
+            }
             auto config_indices_per_runner
                 = runner->getValidConfigIndices(topK, hiddenSize, intermediateSize, numLocalExperts, numTokens);
             for (auto cfg : config_indices_per_runner)
diff --git a/cpp/tensorrt_llm/thop/mxFp4BlockScaleMoe.cpp b/cpp/tensorrt_llm/thop/mxFp4BlockScaleMoe.cpp
@@ -30,6 +30,7 @@ namespace torch_ext
 namespace btg = batchedGemm::trtllm::gen;
 using tensorrt_llm::kernels::trtllmGenFp8BlockScaleMoe::Routing::RoutingMethodType;
 using MoeRunnerType = tensorrt_llm::kernels::trtllmGenFp8BlockScaleMoe::MoE::Runner;
+using tensorrt_llm::kernels::trtllmGenFp8BlockScaleMoe::computeSelectedTileN;
 
 torch::Tensor dtype_mxe2m1_block_scale_moe_runner(torch::optional<torch::Tensor> const& routing_logits,
     torch::optional<torch::Tensor> const& routing_bias, torch::Tensor const& hidden_states,
@@ -500,6 +501,11 @@ class Bf16MxE2m1BlockScaleMoeRunner : public torch::CustomClassHolder
         std::vector<std::vector<int64_t>> tactics;
         for (auto& [tileN, runner] : mRunners)
         {
+            auto chosen = computeSelectedTileN(mSupportedTileN, numTokens, topK, numLocalExperts);
+            if (chosen.find(tileN) == chosen.end())
+            {
+                continue;
+            }
             auto config_indices_per_runner = runner->getValidConfigIndices(
                 topK, hiddenSize, intermediateSize, numLocalExperts, numTokens, validHiddenSize, validIntermediateSize);
             for (auto cfg : config_indices_per_runner)
@@ -587,6 +593,12 @@ class MxE4m3MxE2m1BlockScaleMoeRunner : public torch::CustomClassHolder
         std::vector<std::vector<int64_t>> tactics;
         for (auto& [tileN, runner] : mRunners)
         {
+            auto chosen = computeSelectedTileN(mSupportedTileN, numTokens, topK, numLocalExperts);
+            if (chosen.find(tileN) == chosen.end())
+            {
+                continue;
+            }
+
             auto config_indices_per_runner = runner->getValidConfigIndices(
                 topK, hiddenSize, intermediateSize, numLocalExperts, numTokens, validHiddenSize, validIntermediateSize);
             for (auto cfg : config_indices_per_runner)

Original file line number	Diff line number	Diff line change
`@@ -251,7 +251,9 @@ void Runner::run(void* hiddenState, void* hiddenStateScale, void* weights, void*`
`251`	`251`	`if (mDtypeWeights == btg::Dtype::MxE2m1 && mDtypeAct == btg::Dtype::MxE4m3)`
`252`	`252`	`{`
`253`	`253`	`// The multiple is no less than 128 as TMA requires it for CU_TENSOR_MAP_DATA_TYPE_16U4_ALIGN16B types`
`254`		`- // FIXME: enforce valid hidden dim to be multiple of 512 due to unhandled OOB read in routeAct`
	`254`	`+ // FIXME: enforce valid hidden dim to be multiple of 512 due to unhandled OOB read in routeAct. Please keep this`
	`255`	`+ // in sync with`
	`256`	`+ // tensorrt_llm/_torch/modules/fused_moe/quantization.py:MXFP4WeightTRTLLMGenFusedMoEMethod.input_hidden_alignment`
`255`	`257`	`validHiddenSize = tensorrt_llm::common::roundUp(validHiddenSize, 512);`
`256`	`258`	`}`
`257`	`259`	`auto maxNumCtasInBatchDim = Routing::getMaxNumCtasInBatchDim(numTokens, topK, numExperts, mTileTokensDim);`