ROCm · valarLip · Nov 10, 2025 · Nov 3, 2025 · Nov 4, 2025 · Nov 9, 2025
diff --git a/aiter/jit/optCompilerConfig.json b/aiter/jit/optCompilerConfig.json
@@ -935,7 +935,7 @@
         "verbose": "False",
         "blob_gen_cmd": "''"
     },
-    "module_topk_per_row": {
+    "module_top_k_per_row": {
         "srcs": [
             "f'{AITER_CSRC_DIR}/kernels/topk_per_row_kernels.cu'",
             "f'{AITER_CSRC_DIR}/pybind/topk_per_row_pybind.cu'"

diff --git a/aiter/ops/topk.py b/aiter/ops/topk.py
@@ -196,8 +196,8 @@ def grouped_topk_torch(
     return topk_weights.to(dtypes.fp32), topk_ids.to(dtypes.i32)
 
 
-@compile_ops("module_topk_per_row")
-def topk_per_row(
+@compile_ops("module_top_k_per_row")
+def top_k_per_row_prefill(
     logits: torch.Tensor,
     rowStarts: torch.Tensor,
     rowEnds: torch.Tensor,
@@ -208,8 +208,8 @@ def topk_per_row(
 ) -> None: ...
 
 
-@compile_ops("module_topk_per_row")
-def topk_per_row_decode(
+@compile_ops("module_top_k_per_row")
+def top_k_per_row_decode(
     logits: torch.Tensor,
     next_n: int,
     seqLens: torch.Tensor,

diff --git a/csrc/include/rocm_ops.hpp b/csrc/include/rocm_ops.hpp
@@ -1289,56 +1289,56 @@ namespace py = pybind11;
 #define GEMM_COMMON_PYBIND \
     m.def("get_padded_m", &getPaddedM, py::arg("M"), py::arg("N"), py::arg("K"), py::arg("gl"));
 
-#define TOPK_PER_ROW_PYBIND      \
-    m.def("topk_per_row",        \
-          &topk_per_row,         \
-          py::arg("logits"),     \
-          py::arg("rowStarts"),  \
-          py::arg("rowEnds"),    \
-          py::arg("indices"),    \
-          py::arg("numRows"),    \
-          py::arg("stride0"),    \
-          py::arg("stride1"));   \
-    m.def("topk_per_row_decode", \
-          &topk_per_row_decode,  \
-          py::arg("logits"),     \
-          py::arg("next_n"),     \
-          py::arg("seqLens"),    \
-          py::arg("indices"),    \
-          py::arg("numRows"),    \
-          py::arg("stride0"),    \
+#define TOP_K_PER_ROW_PYBIND       \
+    m.def("top_k_per_row_prefill", \
+          &top_k_per_row_prefill,  \
+          py::arg("logits"),       \
+          py::arg("rowStarts"),    \
+          py::arg("rowEnds"),      \
+          py::arg("indices"),      \
+          py::arg("numRows"),      \
+          py::arg("stride0"),      \
+          py::arg("stride1"));     \
+    m.def("top_k_per_row_decode",  \
+          &top_k_per_row_decode,   \
+          py::arg("logits"),       \
+          py::arg("next_n"),       \
+          py::arg("seqLens"),      \
+          py::arg("indices"),      \
+          py::arg("numRows"),      \
+          py::arg("stride0"),      \
           py::arg("stride1"));
 
-#define MLA_METADATA_PYBIND                             \
-    m.def("get_mla_metadata_v1",                        \
-          &get_mla_metadata_v1,                         \
-          "get_mla_metadata_v1",                        \
-          py::arg("seqlens_qo_indptr"),                 \
-          py::arg("seqlens_kv_indptr"),                 \
-          py::arg("num_heads_per_head_k"),              \
-          py::arg("num_heads_k"),                       \
-          py::arg("is_causal"),                         \
-          py::arg("work_metadata_ptrs"),                \
-          py::arg("work_info_set"),                     \
-          py::arg("work_indptr"),                       \
-          py::arg("reduce_indptr"),                     \
-          py::arg("reduce_final_map"),                  \
-          py::arg("reduce_partial_map"),                \
-          py::arg("kv_granularity") = 16,               \
-          py::arg("max_seqlen_qo") = -1,                \
-          py::arg("uni_seqlen_qo") = -1,                \
-          py::arg("fast_mode") = true,                  \
-          py::arg("topk") = -1);                        \
+#define MLA_METADATA_PYBIND                 \
+    m.def("get_mla_metadata_v1",            \
+          &get_mla_metadata_v1,             \
+          "get_mla_metadata_v1",            \
+          py::arg("seqlens_qo_indptr"),     \
+          py::arg("seqlens_kv_indptr"),     \
+          py::arg("num_heads_per_head_k"),  \
+          py::arg("num_heads_k"),           \
+          py::arg("is_causal"),             \
+          py::arg("work_metadata_ptrs"),    \
+          py::arg("work_info_set"),         \
+          py::arg("work_indptr"),           \
+          py::arg("reduce_indptr"),         \
+          py::arg("reduce_final_map"),      \
+          py::arg("reduce_partial_map"),    \
+          py::arg("kv_granularity") = 16,   \
+          py::arg("max_seqlen_qo")  = -1,   \
+          py::arg("uni_seqlen_qo")  = -1,   \
+          py::arg("fast_mode")      = true, \
+          py::arg("topk")           = -1);            \
     m.def("get_mla_metadata_v1_no_redundant", &get_mla_metadata_v1_no_redundant);
 
-#define MLA_REDUCE_PYBIND                             \
-    m.def("mla_reduce_v1",                            \
-          &mla_reduce_v1,                             \
-          "mla_reduce_v1",                            \
-          py::arg("partial_output"),                  \
-          py::arg("partial_lse"),                     \
-          py::arg("reduce_indptr"),                   \
-          py::arg("reduce_final_map"),                \
-          py::arg("reduce_partial_map"),              \
-          py::arg("final_output"),                    \
-          py::arg("final_lse")  = std::nullopt);
+#define MLA_REDUCE_PYBIND                \
+    m.def("mla_reduce_v1",               \
+          &mla_reduce_v1,                \
+          "mla_reduce_v1",               \
+          py::arg("partial_output"),     \
+          py::arg("partial_lse"),        \
+          py::arg("reduce_indptr"),      \
+          py::arg("reduce_final_map"),   \
+          py::arg("reduce_partial_map"), \
+          py::arg("final_output"),       \
+          py::arg("final_lse") = std::nullopt);
diff --git a/csrc/include/topk_per_row.h b/csrc/include/topk_per_row.h
@@ -2,18 +2,18 @@
 // Copyright (C) 2024-2025, Advanced Micro Devices, Inc. All rights reserved.
 #include <torch/extension.h>
 
-void topk_per_row(const torch::Tensor& logits,
-                  const torch::Tensor& rowStarts,
-                  const torch::Tensor& rowEnds,
-                  torch::Tensor& indices,
-                  int64_t numRows,
-                  int64_t stride0,
-                  int64_t stride1);
+void top_k_per_row_prefill(const torch::Tensor& logits,
+                           const torch::Tensor& rowStarts,
+                           const torch::Tensor& rowEnds,
+                           torch::Tensor& indices,
+                           int64_t numRows,
+                           int64_t stride0,
+                           int64_t stride1);
 
-void topk_per_row_decode(const torch::Tensor& logits,
-                         int64_t next_n,
-                         const torch::Tensor& seqLens,
-                         torch::Tensor& indices,
-                         int64_t numRows,
-                         int64_t stride0,
-                         int64_t stride1);
+void top_k_per_row_decode(const torch::Tensor& logits,
+                          int64_t next_n,
+                          const torch::Tensor& seqLens,
+                          torch::Tensor& indices,
+                          int64_t numRows,
+                          int64_t stride0,
+                          int64_t stride1);