tile-ai · LeiWang1999 · Jan 17, 2026 · Jan 14, 2026 · Jan 14, 2026 · Jan 17, 2026
diff --git a/examples/flash_decoding/example_gqa_decode_varlen_logits.py b/examples/flash_decoding/example_gqa_decode_varlen_logits.py
@@ -5,6 +5,7 @@
 import argparse
 import tilelang
 import tilelang.language as T
+from tilelang.profiler import do_bench
 
 torch.manual_seed(0)
 
@@ -617,31 +618,6 @@ def test_varlen_decode_main(args):
     print("✅ All tests passed!")
 
 
-def do_bench(fn, *args, warmup=10, rep=10, **kwargs):
-    """
-    Do benchmark for a function.
-    """
-    start_event = [torch.cuda.Event(enable_timing=True) for i in range(rep)]
-    end_event = [torch.cuda.Event(enable_timing=True) for i in range(rep)]
-    for _ in range(warmup):
-        fn(*args, **kwargs)
-
-    torch.cuda.synchronize()
-    for i in range(rep):
-        start_event[i].record()
-        fn(*args, **kwargs)
-        end_event[i].record()
-    torch.cuda.synchronize()
-
-    # Record clocks
-    times = torch.tensor(
-        [s.elapsed_time(e) for s, e in zip(start_event, end_event)],
-        dtype=torch.float,
-    )
-
-    return times.mean().item()
-
-
 def speed_benchmark_decode_comparison(args):
     """Speed benchmark for decode kernel"""
     batch_size = args.batch_size

diff --git a/examples/gdn/example_chunk_delta_bwd.py b/examples/gdn/example_chunk_delta_bwd.py
@@ -4,6 +4,7 @@
 
 import tilelang
 import tilelang.language as T
+from tilelang.profiler import do_bench
 
 print(tilelang.__file__, flush=True)
 
@@ -544,31 +545,6 @@ def run_test(
         assert_similar(dv2_ref_torch, dv2_tilelang, 1e-5, "torch-tilelang", data="dv2")
 
 
-def do_bench(fn, *args, warmup=10, rep=10, **kwargs):
-    """
-    Do benchmark for a function.
-    """
-    start_event = [torch.cuda.Event(enable_timing=True) for i in range(rep)]
-    end_event = [torch.cuda.Event(enable_timing=True) for i in range(rep)]
-    for _ in range(warmup):
-        fn(*args, **kwargs)
-
-    torch.cuda.synchronize()
-    for i in range(rep):
-        start_event[i].record()
-        fn(*args, **kwargs)
-        end_event[i].record()
-    torch.cuda.synchronize()
-
-    # Record clocks
-    times = torch.tensor(
-        [s.elapsed_time(e) for s, e in zip(start_event, end_event)],
-        dtype=torch.float,
-    )
-
-    return times.mean().item()
-
-
 def main():
     DK = 128
     run_test(

diff --git a/examples/gdn/example_chunk_delta_h.py b/examples/gdn/example_chunk_delta_h.py
@@ -4,6 +4,7 @@
 import tilelang
 import tilelang.language as T
 from tilelang.autotuner import autotune
+from tilelang.profiler import do_bench
 
 # Add your fla repository path to sys.path
 # Currently we use the fla repository from the flash-linear-attention project at commit id f03cb3ae
@@ -224,31 +225,6 @@ def kernel(
     return kernel
 
 
-def do_bench(fn, *args, warmup=10, rep=10, **kwargs):
-    """
-    Do benchmark for a function.
-    """
-    start_event = [torch.cuda.Event(enable_timing=True) for i in range(rep)]
-    end_event = [torch.cuda.Event(enable_timing=True) for i in range(rep)]
-    for _ in range(warmup):
-        fn(*args, **kwargs)
-
-    torch.cuda.synchronize()
-    for i in range(rep):
-        start_event[i].record()
-        fn(*args, **kwargs)
-        end_event[i].record()
-    torch.cuda.synchronize()
-
-    # Record clocks
-    times = torch.tensor(
-        [s.elapsed_time(e) for s, e in zip(start_event, end_event)],
-        dtype=torch.float,
-    )
-
-    return times.mean().item()
-
-
 def run_test(
     B,
     S,

diff --git a/examples/gdn/example_chunk_o_bwd.py b/examples/gdn/example_chunk_o_bwd.py
@@ -359,31 +359,6 @@ def kernel(
     return kernel
 
 
-def do_bench(fn, *args, warmup=10, rep=10, **kwargs):
-    """
-    Do benchmark for a function.
-    """
-    start_event = [torch.cuda.Event(enable_timing=True) for i in range(rep)]
-    end_event = [torch.cuda.Event(enable_timing=True) for i in range(rep)]
-    for _ in range(warmup):
-        fn(*args, **kwargs)
-
-    torch.cuda.synchronize()
-    for i in range(rep):
-        start_event[i].record()
-        fn(*args, **kwargs)
-        end_event[i].record()
-    torch.cuda.synchronize()
-
-    # Record clocks
-    times = torch.tensor(
-        [s.elapsed_time(e) for s, e in zip(start_event, end_event)],
-        dtype=torch.float,
-    )
-
-    return times.mean().item()
-
-
 def run_test(
     B,
     S,

diff --git a/examples/gemm_sp/example_custom_compress.py b/examples/gemm_sp/example_custom_compress.py
@@ -7,7 +7,7 @@
 from tilelang.utils.sparse import randn_semi_sparse
 from tilelang.utils.tensor import torch_assert_close
 
-from triton.testing import do_bench
+from tilelang.profiler import do_bench
 
 import torch
 

diff --git a/examples/gemm_sp/example_gemm_sp.py b/examples/gemm_sp/example_gemm_sp.py
@@ -6,7 +6,7 @@
 from tilelang.layout import make_cutlass_metadata_layout
 from tilelang.utils.sparse import compress, randn_semi_sparse
 from tilelang.contrib import nvcc
-from triton.testing import do_bench
+from tilelang.profiler import do_bench
 
 import torch
 

diff --git a/tilelang/profiler/__init__.py b/tilelang/profiler/__init__.py
@@ -4,9 +4,7 @@
 from typing import Callable, Any, Literal
 from functools import partial
 import torch
-from contextlib import suppress
 from dataclasses import dataclass
-import tvm
 from tilelang.utils.tensor import (
     get_tensor_supply,
     TensorSupplyType,
@@ -191,21 +189,6 @@ def run_once(self, func: Callable | None = None):
             func = self.__call__
         return func(*ins)
 
-    def determine_profiler(self, func: Callable | None = None):
-        """Determines which profiler backend to use based on function type.
-
-        Args:
-            func: Function to be profiled
-            profiler: Explicitly specified profiler type or "auto" for automatic detection
-
-        Returns:
-            str: The determined profiler type ("torch" or "tvm")
-        """
-        if isinstance(func, tvm.runtime.Module):
-            return "tvm"
-        else:
-            return "torch"
-
     def do_bench(
         self,
         func: Callable | None = None,
@@ -232,41 +215,21 @@ def do_bench(
         Returns:
             float: Average execution time in milliseconds
         """
-        profiler = self.determine_profiler(func)
-        if profiler == "torch":
-            if func is None:
-                assert self.adapter is not None, "benchmarking function should be provided"
-                func = self.adapter
-            ins = self._get_inputs() if input_tensors is None else input_tensors
-            bench_func = partial(func, *ins)
-            return do_bench(
-                bench_func,
-                warmup=warmup,
-                rep=rep,
-                _n_warmup=n_warmup,
-                _n_repeat=n_repeat,
-                quantiles=quantiles,
-                backend=backend,
-                return_mode=return_mode,
-            )
-        elif profiler == "tvm":
-            assert func is not None, "func should not be None"
-            assert isinstance(func, tvm.runtime.Module), f"func should be a TVM module, but got {type(func)}"
-
-            ins = self._get_inputs(with_output=True) if input_tensors is None else input_tensors
-            target = "cuda"
-
-            with suppress(Exception):
-                target = self.mod.imported_modules[0].type_key
-
-            assert target in ["cuda", "hip"], f"Unknown target: {target}"
-
-            device = tvm.cuda(0) if target == "cuda" else tvm.rocm(0)
-            time_evaluator = self.mod.time_evaluator(self.mod.entry_name, device, number=rep, repeat=n_repeat)
-            # Transform Latency to ms
-            return time_evaluator(*ins).mean * 1e3
-        else:
-            raise ValueError(f"Unknown profiler: {profiler}")
+        if func is None:
+            assert self.adapter is not None, "benchmarking function should be provided"
+            func = self.adapter
+        ins = self._get_inputs() if input_tensors is None else input_tensors
+        bench_func = partial(func, *ins)
+        return do_bench(
+            bench_func,
+            warmup=warmup,
+            rep=rep,
+            _n_warmup=n_warmup,
+            _n_repeat=n_repeat,
+            quantiles=quantiles,
+            backend=backend,
+            return_mode=return_mode,
+        )
 
     @property
     def func(self):