From 8a823d985cb1ae4994daad82d17d12ce863a6f61 Mon Sep 17 00:00:00 2001
From: Freebase6912 <227995639+kurisu6912@users.noreply.github.com>
Date: Wed, 12 Nov 2025 17:44:41 +0800
Subject: [PATCH 01/10] add typing stub for tir.ir

---
 tilelang/language/tir/ir.pyi | 307 +++++++++++++++++++++++++++++++++++
 1 file changed, 307 insertions(+)
 create mode 100644 tilelang/language/tir/ir.pyi

diff --git a/tilelang/language/tir/ir.pyi b/tilelang/language/tir/ir.pyi
new file mode 100644
index 000000000..297244936
--- /dev/null
+++ b/tilelang/language/tir/ir.pyi
@@ -0,0 +1,307 @@
+from typing import Optional, TypeVar, Literal
+from tvm.tir.expr import Span, PrimExpr, BufferLoad, Var, IntImm
+
+_T = TypeVar('_T')
+
+def abs(x: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def acos(x: _T) -> _T:
+    ...
+
+def acosh(x: _T) -> _T:
+    ...
+
+def address_of(buffer_load: BufferLoad, span: Optional[Span]=None) -> PrimExpr:
+    ...
+
+def asin(x: _T) -> _T:
+    ...
+
+def asinh(x: _T) -> _T:
+    ...
+
+def atan(x: _T) -> _T:
+    ...
+
+def atan2(x1: _T, x2: _T) -> _T:
+    ...
+
+def atanh(x: _T) -> _T:
+    ...
+
+def bitwise_and(x: _T, y: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def bitwise_not(x: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def bitwise_or(x: _T, y: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def bitwise_xor(x: _T, y: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def ceil(x: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def clz(x: _T) -> _T:
+    ...
+
+def copysign(x1: _T, x2: _T) -> _T:
+    ...
+
+def cos(x: _T) -> _T:
+    ...
+
+def cosh(x: _T) -> _T:
+    ...
+
+def erf(x: _T) -> _T:
+    ...
+
+def exp(x: _T) -> _T:
+    ...
+
+def exp2(x: _T) -> _T:
+    ...
+
+def exp10(x: _T) -> _T:
+    ...
+
+def floor(x: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def ceildiv(lhs: _T, rhs: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def floordiv(a: _T, b: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def floormod(a: _T, b: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def fmod(x: _T, y: _T) -> _T:
+    ...
+
+def hypot(x1: _T, x2: _T) -> _T:
+    ...
+
+def if_then_else(cond: PrimExpr, t: _T, f: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def infinity(dtype: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def isfinite(x: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def isinf(x: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def isnan(x: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def isnullptr(x: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def ldexp(x1: _T, x2: _T) -> _T:
+    ...
+
+def likely(cond: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def log(x: _T) -> _T:
+    ...
+
+def log1p(x: _T) -> _T:
+    ...
+
+def log2(x: _T) -> _T:
+    ...
+
+def log10(x: _T) -> _T:
+    ...
+
+def lookup_param(param_name: str, span: Optional[Span]=None) -> PrimExpr:
+    ...
+
+def max_value(dtype: str, span: Optional[Span]=None) -> PrimExpr:
+    ...
+
+def min_value(dtype: str, span: Optional[Span]=None) -> PrimExpr:
+    ...
+
+def nearbyint(x: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def nextafter(x1: _T, x2: _T) -> _T:
+    ...
+
+def popcount(x: _T) -> _T:
+    ...
+
+def pow(x: _T, y: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def q_multiply_shift(x: _T, y: _T, q: _T, s: _T) -> _T:
+    ...
+
+def q_multiply_shift_per_axis(x: PrimExpr, y: PrimExpr, ls: PrimExpr, rs: PrimExpr, q: IntImm, is_lshift_required: IntImm, is_rshift_required: IntImm) -> PrimExpr:
+    ...
+
+def ret(val: _T) -> _T:
+    ...
+
+def round(x: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def rsqrt(x: _T) -> _T:
+    ...
+
+def shift_left(x: PrimExpr, y: PrimExpr, span=None) -> PrimExpr:
+    ...
+
+def shift_right(x: PrimExpr, y: PrimExpr, span=None) -> PrimExpr:
+    ...
+
+def sigmoid(x: _T) -> _T:
+    ...
+
+def sin(x: _T) -> _T:
+    ...
+
+def sinh(x: _T) -> _T:
+    ...
+
+def sqrt(x: _T) -> _T:
+    ...
+
+def tan(x: _T) -> _T:
+    ...
+
+def tanh(x: _T) -> _T:
+    ...
+
+def trunc(x: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def truncdiv(a: _T, b: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def truncmod(a: _T, b: _T, span: Optional[Span]=None) -> _T:
+    ...
+
+def tvm_access_ptr(ptype: PrimExpr, data, offset: int, extent: int, rw_mask: int) -> PrimExpr:
+    ...
+
+def tvm_throw_last_error() -> _T:
+    ...
+
+def tvm_stack_alloca(dtype_str: str, num: int) -> PrimExpr:
+    ...
+
+def tvm_stack_make_shape(*args) -> _T:
+    ...
+
+def tvm_stack_make_array(data: PrimExpr, shape: PrimExpr, strides: PrimExpr, ndim: PrimExpr, arr_dtype: PrimExpr, elem_offset) -> PrimExpr:
+    ...
+
+def tvm_check_return(expected: int, return_unexpected: int, nested_call: PrimExpr) -> PrimExpr:
+    ...
+
+def call_packed(*args, span=None) -> _T:
+    ...
+
+def call_cpacked(*args, span=None) -> _T:
+    ...
+
+def call_packed_lowered(*args, span=None) -> _T:
+    ...
+
+def call_cpacked_lowered(*args, span=None) -> _T:
+    ...
+
+def tvm_tuple(*value) -> _T:
+    ...
+
+def tvm_struct_set(arr, index: int, field: int, value: PrimExpr) -> PrimExpr:
+    ...
+
+def tvm_thread_invariant(cond: _T) -> _T:
+    ...
+
+def tvm_thread_allreduce(*freduce_args) -> _T:
+    ...
+
+def tvm_load_matrix_sync(fragment: Var, m: IntImm, n: IntImm, k: IntImm, index: PrimExpr, buffer_ptr: PrimExpr, stride: PrimExpr, layout: Literal['row_major', 'column_major']) -> PrimExpr:
+    ...
+
+def tvm_mma_sync(fragment_d: Var, index_d: PrimExpr, fragment_a: Var, index_a: PrimExpr, fragment_b: Var, index_b: PrimExpr, fragment_c: Var, index_c: PrimExpr) -> PrimExpr:
+    ...
+
+def tvm_bmma_sync(fragment_d: Var, index_d: PrimExpr, fragment_a: Var, index_a: PrimExpr, fragment_b: Var, index_b: PrimExpr, fragment_c: Var, index_c: PrimExpr) -> PrimExpr:
+    ...
+
+def tvm_fill_fragment(fragment: Var, m: IntImm, n: IntImm, k: IntImm, index: PrimExpr, value: PrimExpr) -> PrimExpr:
+    ...
+
+def tvm_store_matrix_sync(fragment: Var, m: IntImm, n: IntImm, k: IntImm, index: PrimExpr, buffer_ptr: PrimExpr, stride: PrimExpr, layout: Literal['row_major', 'column_major']) -> PrimExpr:
+    ...
+
+def ptx_wait_group(num: int) -> PrimExpr:
+    ...
+
+def ptx_commit_group() -> _T:
+    ...
+
+def ptx_cp_async_barrier(barrier_id: int) -> PrimExpr:
+    ...
+
+def ptx_init_barrier_thread_count(barrier_id: int, thread_count: int) -> PrimExpr:
+    ...
+
+def ptx_arrive_barrier(barrier_id: int) -> PrimExpr:
+    ...
+
+def ptx_arrive_barrier_expect_tx(barrier_id: int, byte_count: int) -> PrimExpr:
+    ...
+
+def ptx_wait_barrier(barrier_id: int) -> PrimExpr:
+    ...
+
+def create_barriers(barrier_count: int) -> PrimExpr:
+    ...
+
+def assume(cond: _T=None) -> _T:
+    ...
+
+def undef() -> _T:
+    ...
+
+def TVMBackendAllocWorkspace(device_type: int, device_id: int, nbytes: int, dtype_code_hint: int, dtype_bits_hint: int) -> PrimExpr:
+    ...
+
+def TVMBackendFreeWorkspace(device_type: int, device_id: int, ptr: Var) -> PrimExpr:
+    ...
+
+def start_profile_intrinsic(id: int) -> PrimExpr:
+    ...
+
+def end_profile_intrinsic(id: int) -> PrimExpr:
+    ...
+
+def anylist_getitem(list_handle, index) -> PrimExpr:
+    ...
+
+def anylist_resetitem(list_handle, index) -> PrimExpr:
+    ...
+
+def anylist_setitem_call_packed(list_handle, index, func_name, *args) -> PrimExpr:
+    ...
+
+def anylist_setitem_call_cpacked(list_handle, index, func_name, *args) -> PrimExpr:
+    ...
+
+def vscale() -> _T:
+    ...

From 724f8f03cc19d1f11fac94124b486245a0f35a76 Mon Sep 17 00:00:00 2001
From: Freebase6912 <227995639+kurisu6912@users.noreply.github.com>
Date: Wed, 12 Nov 2025 17:46:16 +0800
Subject: [PATCH 02/10] remove idents

---
 tilelang/__init__.py         |   1 -
 tilelang/language/tir/ir.pyi | 405 +++++++++--------------------------
 2 files changed, 102 insertions(+), 304 deletions(-)

diff --git a/tilelang/__init__.py b/tilelang/__init__.py
index 97fde2a9f..e4be01290 100644
--- a/tilelang/__init__.py
+++ b/tilelang/__init__.py
@@ -22,7 +22,6 @@ def _compute_version() -> str:
         version_file = repo_root / "VERSION"
         if version_file.is_file():
             try:
-                import version_provider
                 from version_provider import dynamic_metadata  # type: ignore
                 return dynamic_metadata("version")
             except Exception:
diff --git a/tilelang/language/tir/ir.pyi b/tilelang/language/tir/ir.pyi
index 297244936..d6eeab443 100644
--- a/tilelang/language/tir/ir.pyi
+++ b/tilelang/language/tir/ir.pyi
@@ -1,307 +1,106 @@
-from typing import Optional, TypeVar, Literal
+from typing import TypeVar, Literal
 from tvm.tir.expr import Span, PrimExpr, BufferLoad, Var, IntImm
 
 _T = TypeVar('_T')
 
-def abs(x: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def acos(x: _T) -> _T:
-    ...
-
-def acosh(x: _T) -> _T:
-    ...
-
-def address_of(buffer_load: BufferLoad, span: Optional[Span]=None) -> PrimExpr:
-    ...
-
-def asin(x: _T) -> _T:
-    ...
-
-def asinh(x: _T) -> _T:
-    ...
-
-def atan(x: _T) -> _T:
-    ...
-
-def atan2(x1: _T, x2: _T) -> _T:
-    ...
-
-def atanh(x: _T) -> _T:
-    ...
-
-def bitwise_and(x: _T, y: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def bitwise_not(x: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def bitwise_or(x: _T, y: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def bitwise_xor(x: _T, y: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def ceil(x: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def clz(x: _T) -> _T:
-    ...
-
-def copysign(x1: _T, x2: _T) -> _T:
-    ...
-
-def cos(x: _T) -> _T:
-    ...
-
-def cosh(x: _T) -> _T:
-    ...
-
-def erf(x: _T) -> _T:
-    ...
-
-def exp(x: _T) -> _T:
-    ...
-
-def exp2(x: _T) -> _T:
-    ...
-
-def exp10(x: _T) -> _T:
-    ...
-
-def floor(x: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def ceildiv(lhs: _T, rhs: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def floordiv(a: _T, b: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def floormod(a: _T, b: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def fmod(x: _T, y: _T) -> _T:
-    ...
-
-def hypot(x1: _T, x2: _T) -> _T:
-    ...
-
-def if_then_else(cond: PrimExpr, t: _T, f: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def infinity(dtype: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def isfinite(x: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def isinf(x: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def isnan(x: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def isnullptr(x: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def ldexp(x1: _T, x2: _T) -> _T:
-    ...
-
-def likely(cond: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def log(x: _T) -> _T:
-    ...
-
-def log1p(x: _T) -> _T:
-    ...
-
-def log2(x: _T) -> _T:
-    ...
-
-def log10(x: _T) -> _T:
-    ...
-
-def lookup_param(param_name: str, span: Optional[Span]=None) -> PrimExpr:
-    ...
-
-def max_value(dtype: str, span: Optional[Span]=None) -> PrimExpr:
-    ...
-
-def min_value(dtype: str, span: Optional[Span]=None) -> PrimExpr:
-    ...
-
-def nearbyint(x: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def nextafter(x1: _T, x2: _T) -> _T:
-    ...
-
-def popcount(x: _T) -> _T:
-    ...
-
-def pow(x: _T, y: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def q_multiply_shift(x: _T, y: _T, q: _T, s: _T) -> _T:
-    ...
-
-def q_multiply_shift_per_axis(x: PrimExpr, y: PrimExpr, ls: PrimExpr, rs: PrimExpr, q: IntImm, is_lshift_required: IntImm, is_rshift_required: IntImm) -> PrimExpr:
-    ...
-
-def ret(val: _T) -> _T:
-    ...
-
-def round(x: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def rsqrt(x: _T) -> _T:
-    ...
-
-def shift_left(x: PrimExpr, y: PrimExpr, span=None) -> PrimExpr:
-    ...
-
-def shift_right(x: PrimExpr, y: PrimExpr, span=None) -> PrimExpr:
-    ...
-
-def sigmoid(x: _T) -> _T:
-    ...
-
-def sin(x: _T) -> _T:
-    ...
-
-def sinh(x: _T) -> _T:
-    ...
-
-def sqrt(x: _T) -> _T:
-    ...
-
-def tan(x: _T) -> _T:
-    ...
-
-def tanh(x: _T) -> _T:
-    ...
-
-def trunc(x: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def truncdiv(a: _T, b: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def truncmod(a: _T, b: _T, span: Optional[Span]=None) -> _T:
-    ...
-
-def tvm_access_ptr(ptype: PrimExpr, data, offset: int, extent: int, rw_mask: int) -> PrimExpr:
-    ...
-
-def tvm_throw_last_error() -> _T:
-    ...
-
-def tvm_stack_alloca(dtype_str: str, num: int) -> PrimExpr:
-    ...
-
-def tvm_stack_make_shape(*args) -> _T:
-    ...
-
-def tvm_stack_make_array(data: PrimExpr, shape: PrimExpr, strides: PrimExpr, ndim: PrimExpr, arr_dtype: PrimExpr, elem_offset) -> PrimExpr:
-    ...
-
-def tvm_check_return(expected: int, return_unexpected: int, nested_call: PrimExpr) -> PrimExpr:
-    ...
-
-def call_packed(*args, span=None) -> _T:
-    ...
-
-def call_cpacked(*args, span=None) -> _T:
-    ...
-
-def call_packed_lowered(*args, span=None) -> _T:
-    ...
-
-def call_cpacked_lowered(*args, span=None) -> _T:
-    ...
-
-def tvm_tuple(*value) -> _T:
-    ...
-
-def tvm_struct_set(arr, index: int, field: int, value: PrimExpr) -> PrimExpr:
-    ...
-
-def tvm_thread_invariant(cond: _T) -> _T:
-    ...
-
-def tvm_thread_allreduce(*freduce_args) -> _T:
-    ...
-
-def tvm_load_matrix_sync(fragment: Var, m: IntImm, n: IntImm, k: IntImm, index: PrimExpr, buffer_ptr: PrimExpr, stride: PrimExpr, layout: Literal['row_major', 'column_major']) -> PrimExpr:
-    ...
-
-def tvm_mma_sync(fragment_d: Var, index_d: PrimExpr, fragment_a: Var, index_a: PrimExpr, fragment_b: Var, index_b: PrimExpr, fragment_c: Var, index_c: PrimExpr) -> PrimExpr:
-    ...
-
-def tvm_bmma_sync(fragment_d: Var, index_d: PrimExpr, fragment_a: Var, index_a: PrimExpr, fragment_b: Var, index_b: PrimExpr, fragment_c: Var, index_c: PrimExpr) -> PrimExpr:
-    ...
-
-def tvm_fill_fragment(fragment: Var, m: IntImm, n: IntImm, k: IntImm, index: PrimExpr, value: PrimExpr) -> PrimExpr:
-    ...
-
-def tvm_store_matrix_sync(fragment: Var, m: IntImm, n: IntImm, k: IntImm, index: PrimExpr, buffer_ptr: PrimExpr, stride: PrimExpr, layout: Literal['row_major', 'column_major']) -> PrimExpr:
-    ...
-
-def ptx_wait_group(num: int) -> PrimExpr:
-    ...
-
-def ptx_commit_group() -> _T:
-    ...
-
-def ptx_cp_async_barrier(barrier_id: int) -> PrimExpr:
-    ...
-
-def ptx_init_barrier_thread_count(barrier_id: int, thread_count: int) -> PrimExpr:
-    ...
-
-def ptx_arrive_barrier(barrier_id: int) -> PrimExpr:
-    ...
-
-def ptx_arrive_barrier_expect_tx(barrier_id: int, byte_count: int) -> PrimExpr:
-    ...
-
-def ptx_wait_barrier(barrier_id: int) -> PrimExpr:
-    ...
-
-def create_barriers(barrier_count: int) -> PrimExpr:
-    ...
-
-def assume(cond: _T=None) -> _T:
-    ...
-
-def undef() -> _T:
-    ...
-
-def TVMBackendAllocWorkspace(device_type: int, device_id: int, nbytes: int, dtype_code_hint: int, dtype_bits_hint: int) -> PrimExpr:
-    ...
-
-def TVMBackendFreeWorkspace(device_type: int, device_id: int, ptr: Var) -> PrimExpr:
-    ...
-
-def start_profile_intrinsic(id: int) -> PrimExpr:
-    ...
-
-def end_profile_intrinsic(id: int) -> PrimExpr:
-    ...
-
-def anylist_getitem(list_handle, index) -> PrimExpr:
-    ...
-
-def anylist_resetitem(list_handle, index) -> PrimExpr:
-    ...
-
-def anylist_setitem_call_packed(list_handle, index, func_name, *args) -> PrimExpr:
-    ...
-
-def anylist_setitem_call_cpacked(list_handle, index, func_name, *args) -> PrimExpr:
-    ...
-
-def vscale() -> _T:
-    ...
+def abs(x: _T, span: Span | None=None) -> _T: ...
+def acos(x: _T) -> _T: ...
+def acosh(x: _T) -> _T: ...
+def address_of(buffer_load: BufferLoad, span: Span | None=None) -> PrimExpr: ...
+def asin(x: _T) -> _T: ...
+def asinh(x: _T) -> _T: ...
+def atan(x: _T) -> _T: ...
+def atan2(x1: _T, x2: _T) -> _T: ...
+def atanh(x: _T) -> _T: ...
+def bitwise_and(x: _T, y: _T, span: Span | None=None) -> _T: ...
+def bitwise_not(x: _T, span: Span | None=None) -> _T: ...
+def bitwise_or(x: _T, y: _T, span: Span | None=None) -> _T: ...
+def bitwise_xor(x: _T, y: _T, span: Span | None=None) -> _T: ...
+def ceil(x: _T, span: Span | None=None) -> _T: ...
+def clz(x: _T) -> _T: ...
+def copysign(x1: _T, x2: _T) -> _T: ...
+def cos(x: _T) -> _T: ...
+def cosh(x: _T) -> _T: ...
+def erf(x: _T) -> _T: ...
+def exp(x: _T) -> _T: ...
+def exp2(x: _T) -> _T: ...
+def exp10(x: _T) -> _T: ...
+def floor(x: _T, span: Span | None=None) -> _T: ...
+def ceildiv(lhs: _T, rhs: _T, span: Span | None=None) -> _T: ...
+def floordiv(a: _T, b: _T, span: Span | None=None) -> _T: ...
+def floormod(a: _T, b: _T, span: Span | None=None) -> _T: ...
+def fmod(x: _T, y: _T) -> _T: ...
+def hypot(x1: _T, x2: _T) -> _T: ...
+def if_then_else(cond: PrimExpr, t: _T, f: _T, span: Span | None=None) -> _T: ...
+def infinity(dtype: _T, span: Span | None=None) -> _T: ...
+def isfinite(x: _T, span: Span | None=None) -> _T: ...
+def isinf(x: _T, span: Span | None=None) -> _T: ...
+def isnan(x: _T, span: Span | None=None) -> _T: ...
+def isnullptr(x: _T, span: Span | None=None) -> _T: ...
+def ldexp(x1: _T, x2: _T) -> _T: ...
+def likely(cond: _T, span: Span | None=None) -> _T: ...
+def log(x: _T) -> _T: ...
+def log1p(x: _T) -> _T: ...
+def log2(x: _T) -> _T: ...
+def log10(x: _T) -> _T: ...
+def lookup_param(param_name: str, span: Span | None=None) -> PrimExpr: ...
+def max_value(dtype: str, span: Span | None=None) -> PrimExpr: ...
+def min_value(dtype: str, span: Span | None=None) -> PrimExpr: ...
+def nearbyint(x: _T, span: Span | None=None) -> _T: ...
+def nextafter(x1: _T, x2: _T) -> _T: ...
+def popcount(x: _T) -> _T: ...
+def pow(x: _T, y: _T, span: Span | None=None) -> _T: ...
+def q_multiply_shift(x: _T, y: _T, q: _T, s: _T) -> _T: ...
+def q_multiply_shift_per_axis(x: PrimExpr, y: PrimExpr, ls: PrimExpr, rs: PrimExpr, q: IntImm, is_lshift_required: IntImm, is_rshift_required: IntImm) -> PrimExpr: ...
+def ret(val: _T) -> _T: ...
+def round(x: _T, span: Span | None=None) -> _T: ...
+def rsqrt(x: _T) -> _T: ...
+def shift_left(x: PrimExpr, y: PrimExpr, span=None) -> PrimExpr: ...
+def shift_right(x: PrimExpr, y: PrimExpr, span=None) -> PrimExpr: ...
+def sigmoid(x: _T) -> _T: ...
+def sin(x: _T) -> _T: ...
+def sinh(x: _T) -> _T: ...
+def sqrt(x: _T) -> _T: ...
+def tan(x: _T) -> _T: ...
+def tanh(x: _T) -> _T: ...
+def trunc(x: _T, span: Span | None=None) -> _T: ...
+def truncdiv(a: _T, b: _T, span: Span | None=None) -> _T: ...
+def truncmod(a: _T, b: _T, span: Span | None=None) -> _T: ...
+def tvm_access_ptr(ptype: PrimExpr, data, offset: int, extent: int, rw_mask: int) -> PrimExpr: ...
+def tvm_throw_last_error() -> _T: ...
+def tvm_stack_alloca(dtype_str: str, num: int) -> PrimExpr: ...
+def tvm_stack_make_shape(*args) -> _T: ...
+def tvm_stack_make_array(data: PrimExpr, shape: PrimExpr, strides: PrimExpr, ndim: PrimExpr, arr_dtype: PrimExpr, elem_offset) -> PrimExpr: ...
+def tvm_check_return(expected: int, return_unexpected: int, nested_call: PrimExpr) -> PrimExpr: ...
+def call_packed(*args, span=None) -> _T: ...
+def call_cpacked(*args, span=None) -> _T: ...
+def call_packed_lowered(*args, span=None) -> _T: ...
+def call_cpacked_lowered(*args, span=None) -> _T: ...
+def tvm_tuple(*value) -> _T: ...
+def tvm_struct_set(arr, index: int, field: int, value: PrimExpr) -> PrimExpr: ...
+def tvm_thread_invariant(cond: _T) -> _T: ...
+def tvm_thread_allreduce(*freduce_args) -> _T: ...
+def tvm_load_matrix_sync(fragment: Var, m: IntImm, n: IntImm, k: IntImm, index: PrimExpr, buffer_ptr: PrimExpr, stride: PrimExpr, layout: Literal['row_major', 'column_major']) -> PrimExpr: ...
+def tvm_mma_sync(fragment_d: Var, index_d: PrimExpr, fragment_a: Var, index_a: PrimExpr, fragment_b: Var, index_b: PrimExpr, fragment_c: Var, index_c: PrimExpr) -> PrimExpr: ...
+def tvm_bmma_sync(fragment_d: Var, index_d: PrimExpr, fragment_a: Var, index_a: PrimExpr, fragment_b: Var, index_b: PrimExpr, fragment_c: Var, index_c: PrimExpr) -> PrimExpr: ...
+def tvm_fill_fragment(fragment: Var, m: IntImm, n: IntImm, k: IntImm, index: PrimExpr, value: PrimExpr) -> PrimExpr: ...
+def tvm_store_matrix_sync(fragment: Var, m: IntImm, n: IntImm, k: IntImm, index: PrimExpr, buffer_ptr: PrimExpr, stride: PrimExpr, layout: Literal['row_major', 'column_major']) -> PrimExpr: ...
+def ptx_wait_group(num: int) -> PrimExpr: ...
+def ptx_commit_group() -> _T: ...
+def ptx_cp_async_barrier(barrier_id: int) -> PrimExpr: ...
+def ptx_init_barrier_thread_count(barrier_id: int, thread_count: int) -> PrimExpr: ...
+def ptx_arrive_barrier(barrier_id: int) -> PrimExpr: ...
+def ptx_arrive_barrier_expect_tx(barrier_id: int, byte_count: int) -> PrimExpr: ...
+def ptx_wait_barrier(barrier_id: int) -> PrimExpr: ...
+def create_barriers(barrier_count: int) -> PrimExpr: ...
+def assume(cond: _T=None) -> _T: ...
+def undef() -> _T: ...
+def TVMBackendAllocWorkspace(device_type: int, device_id: int, nbytes: int, dtype_code_hint: int, dtype_bits_hint: int) -> PrimExpr: ...
+def TVMBackendFreeWorkspace(device_type: int, device_id: int, ptr: Var) -> PrimExpr: ...
+def start_profile_intrinsic(id: int) -> PrimExpr: ...
+def end_profile_intrinsic(id: int) -> PrimExpr: ...
+def anylist_getitem(list_handle, index) -> PrimExpr: ...
+def anylist_resetitem(list_handle, index) -> PrimExpr: ...
+def anylist_setitem_call_packed(list_handle, index, func_name, *args) -> PrimExpr: ...
+def anylist_setitem_call_cpacked(list_handle, index, func_name, *args) -> PrimExpr: ...
+def vscale() -> _T: ...

From fb63cf5eac8abf22e4bc8be82e4e94c313a13b29 Mon Sep 17 00:00:00 2001
From: Freebase6912 <227995639+kurisu6912@users.noreply.github.com>
Date: Wed, 12 Nov 2025 17:47:52 +0800
Subject: [PATCH 03/10] minor update

---
 tilelang/language/tir/ir.pyi | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tilelang/language/tir/ir.pyi b/tilelang/language/tir/ir.pyi
index d6eeab443..fe25b58f8 100644
--- a/tilelang/language/tir/ir.pyi
+++ b/tilelang/language/tir/ir.pyi
@@ -51,12 +51,12 @@ def nextafter(x1: _T, x2: _T) -> _T: ...
 def popcount(x: _T) -> _T: ...
 def pow(x: _T, y: _T, span: Span | None=None) -> _T: ...
 def q_multiply_shift(x: _T, y: _T, q: _T, s: _T) -> _T: ...
-def q_multiply_shift_per_axis(x: PrimExpr, y: PrimExpr, ls: PrimExpr, rs: PrimExpr, q: IntImm, is_lshift_required: IntImm, is_rshift_required: IntImm) -> PrimExpr: ...
+def q_multiply_shift_per_axis(x: _T, y: _T, ls: _T, rs: _T, q: IntImm, is_lshift_required: IntImm, is_rshift_required: IntImm) -> PrimExpr: ...
 def ret(val: _T) -> _T: ...
 def round(x: _T, span: Span | None=None) -> _T: ...
 def rsqrt(x: _T) -> _T: ...
-def shift_left(x: PrimExpr, y: PrimExpr, span=None) -> PrimExpr: ...
-def shift_right(x: PrimExpr, y: PrimExpr, span=None) -> PrimExpr: ...
+def shift_left(x: _T, y: _T, span=None) -> _T: ...
+def shift_right(x: _T, y: _T, span=None) -> _T: ...
 def sigmoid(x: _T) -> _T: ...
 def sin(x: _T) -> _T: ...
 def sinh(x: _T) -> _T: ...

From 34f6a4b069b54fb607acb920f49a415305baeff7 Mon Sep 17 00:00:00 2001
From: Freebase6912 <227995639+kurisu6912@users.noreply.github.com>
Date: Fri, 14 Nov 2025 13:10:57 +0800
Subject: [PATCH 04/10] [Refactor] add numpy conversion for dtype

---
 tilelang/language/v2/dtypes.py | 155 +++++++++++++++++----------------
 1 file changed, 81 insertions(+), 74 deletions(-)

diff --git a/tilelang/language/v2/dtypes.py b/tilelang/language/v2/dtypes.py
index 2161e3770..315f02727 100644
--- a/tilelang/language/v2/dtypes.py
+++ b/tilelang/language/v2/dtypes.py
@@ -5,91 +5,102 @@
 from typing import TYPE_CHECKING, Union
 from tvm import tir
 import tvm.script.ir_builder.tir._ffi_api as tb_ffi
+import numpy as np
 
 dtype = tvm.DataType
 # Python 3.9 compatibility: avoid PEP 604 unions at runtime
 AnyDType = Union[ir.Type, str, type, torch.dtype, dtype]
 
-# Base dtype conversion list
-_dtype_cvt_base = [
-    (None, 'handle', ctypes.c_long, 'long', None),  # use long to repr void*
-    (bool, 'bool', ctypes.c_bool, 'bool', 'Boolean'),
-    (int, 'int32', ctypes.c_int32, 'int', 'Int32'),
-    (float, 'float32', ctypes.c_float, 'float', 'Float32'),
-    (torch.short, 'int16', ctypes.c_int16, 'short', 'Int16'),
-    (torch.int, 'int32', ctypes.c_int32, 'int', 'Int32'),
-    (torch.long, 'int64', ctypes.c_int64, 'long long', 'Int64'),
-    (torch.half, 'float16', None, None, 'Float16'),
-    (torch.float, 'float32', ctypes.c_float, 'float', 'Float32'),
-    (torch.double, 'float64', ctypes.c_double, 'double', 'Float64'),
-
-    #   (pytype,                'tvm dtype str',    'ctypes dtype',     'cffi dtype')
-    (torch.bool, 'bool', ctypes.c_bool, 'bool', 'Boolean'),
-    (torch.int8, 'int8', ctypes.c_int8, 'char', 'Int8'),
-    (torch.int16, 'int16', ctypes.c_int16, 'short', 'Int16'),
-    (torch.int32, 'int32', ctypes.c_int32, 'int', 'Int32'),
-    (torch.int64, 'int64', ctypes.c_int64, 'long long', 'Int64'),
-    (torch.uint8, 'uint8', ctypes.c_uint8, 'unsigned char', 'UInt8'),
-    (torch.uint16, 'uint16', ctypes.c_uint16, 'unsigned short', 'UInt16'),
-    (torch.uint32, 'uint32', ctypes.c_uint32, 'unsigned int', 'UInt32'),
-    (torch.uint64, 'uint64', ctypes.c_uint64, 'unsigned long long', 'UInt64'),
-    (torch.float16, 'float16', None, None, 'Float16'),
-    (torch.float32, 'float32', ctypes.c_float, 'float', 'Float32'),
-    (torch.float64, 'float64', ctypes.c_double, 'double', 'Float64'),
-    (None, 'float8_e4m3', None, None, 'Float8E4M3'),
-    (torch.bfloat16, 'bfloat16', None, None, 'BFloat16'),
-]
+_PYTHON_DTYPE_TO_STR = {
+    int: 'int32',
+    float: 'float32',
+}
 
-# Dynamically add fp8-related types if they exist in torch
-_fp8_dtype_mappings = [
-    ('float8_e4m3fn', 'Float8E4M3FN'),
-    ('float8_e4m3fnuz', 'Float8E4M3FNUZ'),
-    ('float8_e5m2', 'Float8E5M2'),
-    ('float8_e5m2fnuz', 'Float8E5M2FNUZ'),
-    ('float8_e8m0fnu', 'Float8E8M0FNU'),
-]
+_NUMPY_DTYPE_TO_STR = {
+    np.bool_: 'bool',
+    np.short: 'short',
+    np.int_: 'int32',
+    np.longlong: 'int64',
 
-_dtype_cvt = list(_dtype_cvt_base)
-for torch_attr_name, tvm_name in _fp8_dtype_mappings:
-    if hasattr(torch, torch_attr_name):
-        torch_dtype = getattr(torch, torch_attr_name)
-        _dtype_cvt.append((torch_dtype, torch_attr_name, None, None, tvm_name))
+    np.half: 'float16',
+    np.float_: 'float32',
+    np.double: 'float64',
 
+    np.int8: 'int8',
+    np.int16: 'int16',
+    np.int32: 'int32',
+    np.int64: 'int64',
+    np.uint8: 'uint8',
+    np.uint16: 'uint16',
+    np.uint32: 'uint32',
+    np.uint64: 'uint64',
+    np.float16: 'float16',
+    np.float32: 'float32',
+    np.float64: 'float64',
+}
 
-def _create_type_mapper(sidx, didx, smapper=lambda x: x, dmapper=lambda x: x):
-    return {
-        smapper(item[sidx]): dmapper(item[didx])
-        for item in _dtype_cvt
-        if item[didx] is not None and item[sidx] is not None
-    }
+_NUMPY_DTYPE_TO_STR.update({np.dtype(k): v for k, v in _NUMPY_DTYPE_TO_STR.items()})
 
+_TORCH_DTYPE_TO_STR = {
+    torch.bool: 'bool',
+    torch.short: 'int16',
+    torch.int: 'int32',
+    torch.long: 'int64',
+    torch.half: 'float16',
+    torch.float: 'float32',
+    torch.double: 'float64',
 
-_dtype_py2tvmstr = _create_type_mapper(0, 1)
-_dtype_tvmstr2fficall = _create_type_mapper(1, 4, dmapper=lambda x: getattr(tb_ffi, x))
-_dtype_tvm2py = _create_type_mapper(1, 0, lambda x: dtype(x))
-_dtype_tvm2ctype = _create_type_mapper(1, 2, lambda x: dtype(x))
-_dtype_tvm2cffi = _create_type_mapper(1, 3, lambda x: dtype(x))
+    torch.int8: 'int8',
+    torch.int16: 'int16',
+    torch.int32: 'int32',
+    torch.int64: 'int64',
+    torch.uint8: 'uint8',
+    torch.uint16: 'uint16',
+    torch.uint32: 'uint32',
+    torch.uint64: 'uint64',
+    torch.float16: 'float16',
+    torch.float32: 'float32',
+    torch.float64: 'float64',
+    torch.bfloat16: 'bfloat16',
+}
 
+# _STR_TO_TORCH_DTYPE = {v: k for k, v in _TORCH_DTYPE_TO_STR.items()}
 
-def __dtype_eq__(self: dtype, other: AnyDType):
-    if isinstance(other, str):
-        return str.__eq__(self, other)
-    if other in _dtype_py2tvmstr:
-        return str.__eq__(self, _dtype_py2tvmstr[other])
-    return NotImplemented
+# _STR_TO_NUMPY_DTYPE = {v: k for k, v in _NUMPY_DTYPE_TO_STR.items()}
 
+_DTYPE_TO_STR = {
+    **_PYTHON_DTYPE_TO_STR,
+    **_NUMPY_DTYPE_TO_STR,
+    **_TORCH_DTYPE_TO_STR
+}
 
-def __dtype_ne__(self: dtype, other: AnyDType):
-    if isinstance(other, str):
-        return str.__ne__(self, other)
-    if other in _dtype_py2tvmstr:
-        return str.__ne__(self, _dtype_py2tvmstr[other])
-    return NotImplemented
+_STR_TO_TVM_DTYPE_CALL = {
+    'bool': 'Boolean',
+    'int8': 'Int8',
+    'int32': 'Int32',
+    'int64': 'Int64',
+    'uint8': 'UInt8',
+    'uint16': 'UInt16',
+    'uint32': 'UInt32',
+    'uint64': 'UInt64',
+    'float16': 'Float16',
+    'float32': 'Float32',
+    'float64': 'Float64',
+    'bfloat16': 'BFloat16',
+    'float8_e4m3': 'Float8E4M3',
+    'float8_e4m3fn': 'Float8E4M3FN',
+    'float8_e4m3fnuz': 'Float8E4M3FNUZ',
+    'float8_e5m2': 'Float8E5M2',
+    'float8_e5m2fnuz': 'Float8E5M2FNUZ',
+    'float8_e8m0fnu': 'Float8E8M0FNU'
+}
 
 
 def __dtype_call__(self: dtype, expr=None, is_size_var: bool = False) -> tir.Var:
-    if self in _dtype_tvmstr2fficall:
-        return _dtype_tvmstr2fficall[self](expr, is_size_var)
+    if self in _STR_TO_TVM_DTYPE_CALL:
+        attr = _STR_TO_TVM_DTYPE_CALL[self]
+        call = getattr(tb_ffi, attr, None)
+        return call(expr, is_size_var)
     # try to construct the ffi call
     if self.startswith('uint'):
         val = 'UInt' + self[4:]
@@ -117,17 +128,13 @@ def __dtype_call__(self: dtype, expr=None, is_size_var: bool = False) -> tir.Var
 def __dtype_new__(cls, value: AnyDType) -> dtype:
     if isinstance(value, str):
         return __orig_dtype_new(cls, value)
-    elif value in _dtype_py2tvmstr:
-        return __orig_dtype_new(cls, _dtype_py2tvmstr[value])
+    elif value in _DTYPE_TO_STR:
+        return __orig_dtype_new(cls, _DTYPE_TO_STR[value])
     else:
-        expected = set(list(_dtype_py2tvmstr.keys()) + list(_dtype_tvmstr2fficall.values()))
+        expected = set(list(_DTYPE_TO_STR.keys()) + list(_DTYPE_TO_STR.values()))
         raise TypeError(f"Invalid DataType {value}({type(value)}), expect one of {expected}")
 
 
-dtype.__eq__ = __dtype_eq__
-dtype.__req__ = __dtype_eq__
-dtype.__ne__ = __dtype_ne__
-dtype.__rne__ = __dtype_ne__
 dtype.__call__ = __dtype_call__
 dtype.__new__ = __dtype_new__
 

From da1a38ab9b001d2470fac86769c751853b38639c Mon Sep 17 00:00:00 2001
From: Freebase6912 <227995639+kurisu6912@users.noreply.github.com>
Date: Fri, 14 Nov 2025 13:34:01 +0800
Subject: [PATCH 05/10] fix lint error

---
 tilelang/language/v2/dtypes.py | 11 ++---------
 1 file changed, 2 insertions(+), 9 deletions(-)

diff --git a/tilelang/language/v2/dtypes.py b/tilelang/language/v2/dtypes.py
index 315f02727..743c7ae25 100644
--- a/tilelang/language/v2/dtypes.py
+++ b/tilelang/language/v2/dtypes.py
@@ -1,7 +1,6 @@
 from tilelang import tvm
 from tvm import ir
 import torch
-import ctypes
 from typing import TYPE_CHECKING, Union
 from tvm import tir
 import tvm.script.ir_builder.tir._ffi_api as tb_ffi
@@ -12,6 +11,7 @@
 AnyDType = Union[ir.Type, str, type, torch.dtype, dtype]
 
 _PYTHON_DTYPE_TO_STR = {
+    bool: 'bool',
     int: 'int32',
     float: 'float32',
 }
@@ -21,11 +21,9 @@
     np.short: 'short',
     np.int_: 'int32',
     np.longlong: 'int64',
-
     np.half: 'float16',
     np.float_: 'float32',
     np.double: 'float64',
-
     np.int8: 'int8',
     np.int16: 'int16',
     np.int32: 'int32',
@@ -49,7 +47,6 @@
     torch.half: 'float16',
     torch.float: 'float32',
     torch.double: 'float64',
-
     torch.int8: 'int8',
     torch.int16: 'int16',
     torch.int32: 'int32',
@@ -68,11 +65,7 @@
 
 # _STR_TO_NUMPY_DTYPE = {v: k for k, v in _NUMPY_DTYPE_TO_STR.items()}
 
-_DTYPE_TO_STR = {
-    **_PYTHON_DTYPE_TO_STR,
-    **_NUMPY_DTYPE_TO_STR,
-    **_TORCH_DTYPE_TO_STR
-}
+_DTYPE_TO_STR = {**_PYTHON_DTYPE_TO_STR, **_NUMPY_DTYPE_TO_STR, **_TORCH_DTYPE_TO_STR}
 
 _STR_TO_TVM_DTYPE_CALL = {
     'bool': 'Boolean',

From 8a579efe9de7acd475cd34e8c6667ca560ec27da Mon Sep 17 00:00:00 2001
From: Freebase6912 <227995639+kurisu6912@users.noreply.github.com>
Date: Fri, 14 Nov 2025 14:00:02 +0800
Subject: [PATCH 06/10] remove unused np.float_ in dtype conversion

---
 tilelang/language/v2/dtypes.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/tilelang/language/v2/dtypes.py b/tilelang/language/v2/dtypes.py
index 743c7ae25..8c1465db6 100644
--- a/tilelang/language/v2/dtypes.py
+++ b/tilelang/language/v2/dtypes.py
@@ -22,7 +22,6 @@
     np.int_: 'int32',
     np.longlong: 'int64',
     np.half: 'float16',
-    np.float_: 'float32',
     np.double: 'float64',
     np.int8: 'int8',
     np.int16: 'int16',

From 246e7090ed6a62a630a49eb9470c62d34e677538 Mon Sep 17 00:00:00 2001
From: Freebase6912 <227995639+kurisu6912@users.noreply.github.com>
Date: Fri, 14 Nov 2025 14:00:37 +0800
Subject: [PATCH 07/10] fix type in np.int_

---
 tilelang/language/v2/dtypes.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tilelang/language/v2/dtypes.py b/tilelang/language/v2/dtypes.py
index 8c1465db6..3f87caa82 100644
--- a/tilelang/language/v2/dtypes.py
+++ b/tilelang/language/v2/dtypes.py
@@ -19,7 +19,7 @@
 _NUMPY_DTYPE_TO_STR = {
     np.bool_: 'bool',
     np.short: 'short',
-    np.int_: 'int32',
+    np.int_: 'int64',
     np.longlong: 'int64',
     np.half: 'float16',
     np.double: 'float64',

From ece1dc3a62ad08f431b147b2b24e2582b1510cd2 Mon Sep 17 00:00:00 2001
From: Freebase6912 <227995639+kurisu6912@users.noreply.github.com>
Date: Fri, 14 Nov 2025 14:01:35 +0800
Subject: [PATCH 08/10] fix typo

---
 tilelang/language/v2/dtypes.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tilelang/language/v2/dtypes.py b/tilelang/language/v2/dtypes.py
index 3f87caa82..0702635a0 100644
--- a/tilelang/language/v2/dtypes.py
+++ b/tilelang/language/v2/dtypes.py
@@ -18,7 +18,7 @@
 
 _NUMPY_DTYPE_TO_STR = {
     np.bool_: 'bool',
-    np.short: 'short',
+    np.short: 'int16',
     np.int_: 'int64',
     np.longlong: 'int64',
     np.half: 'float16',

From fc29eead0058694c729e1872272f494a5efd479e Mon Sep 17 00:00:00 2001
From: Freebase6912 <227995639+kurisu6912@users.noreply.github.com>
Date: Fri, 14 Nov 2025 15:40:26 +0800
Subject: [PATCH 09/10] minor fix

---
 a.py                                          |   6 +
 stubgen.py                                    | 115 ++++++++++++++++
 .../test_tilelang_language_frontend_v2.py     | 113 ++++++++--------
 triteo_linear.py                              | 128 ++++++++++++++++++
 4 files changed, 306 insertions(+), 56 deletions(-)
 create mode 100644 a.py
 create mode 100644 stubgen.py
 create mode 100644 triteo_linear.py

diff --git a/a.py b/a.py
new file mode 100644
index 000000000..00291fbd5
--- /dev/null
+++ b/a.py
@@ -0,0 +1,6 @@
+from tilelang import tvm
+import torch
+
+vt = tvm.runtime.convert(torch.float32)
+
+tvm.DataType('float32')
\ No newline at end of file
diff --git a/stubgen.py b/stubgen.py
new file mode 100644
index 000000000..6492ad3c4
--- /dev/null
+++ b/stubgen.py
@@ -0,0 +1,115 @@
+import ast
+from logging.config import valid_ident
+import re
+# from rich import print
+
+from argparse import ArgumentParser
+
+with open('tilelang/language/tir/op.py') as f:
+    data = f.read()
+
+tree = ast.parse(data)
+
+def convert_tree(x):
+    result = {}
+    for fname, value in ast.iter_fields(x):
+        if isinstance(value, list):
+            result[fname] = [convert_tree(v) if isinstance(v, ast.AST) else v for v in value]
+        elif isinstance(value, ast.AST):
+            result[fname] = convert_tree(value)
+        else:
+            result[fname] = value
+    return result
+
+# print(convert_tree(tree))
+
+funcs = {}
+
+subst = {
+    'Expr': 'PrimExpr',
+    'UIntImm': 'IntImm',
+    'tvm.Expr': 'PrimExpr'
+}
+
+for fdef in tree.body:
+    if not isinstance(fdef, ast.FunctionDef):
+        continue
+    if not isinstance(fdef.body[0], ast.Expr):
+        continue
+    value = fdef.body[0].value
+    if not isinstance(value, ast.Constant):
+        continue
+    data = value.value
+    if not isinstance(data, str):
+        continue
+    lines = data.splitlines()
+    ty = None
+    annots = {}
+    for i, line in enumerate(lines):
+        if i > 0 and re.fullmatch(r'    \s*----+', line):
+            annot = lines[i - 1]
+            ty = None
+            if annot == '    Parameters':
+                ty = 'param'
+            if annot == '    Returns':
+                ty = 'return'
+        if mat := re.fullmatch(r'\s+([A-Za-z_][A-Za-z0-9_]*)\s*:\s+(.*)', line):
+            name, val = mat.groups()
+            val = subst.get(val, val)
+            if ty == 'param':
+                annots[name] = val
+            if ty == 'return':
+                annots['return'] = val
+    
+    pe_arg = []
+    span_arg = []
+    other_arg = []
+    for args in fdef.args.args:
+        if args.arg in annots:
+            annot = annots[args.arg]
+            if annot == 'PrimExpr':
+                pe_arg.append(args.arg)
+            elif annot == 'Optional[Span]':
+                span_arg.append(args.arg)
+            else:
+                other_arg.append(args.arg)
+            try:
+                args.annotation = ast.parse(annot).body[0].value
+            except Exception as e:
+                print(annot, repr(e))
+        else:
+            other_arg.append(args.arg)
+    if 'return' in annots:
+        try:
+            fdef.returns = ast.parse(annots['return']).body[0].value
+        except Exception as e:
+            print(annots['return'], repr(e))
+    if annots.get('return', None) == 'PrimExpr' and not other_arg:
+        print('UT Prim: ', fdef.name)
+        Tvar = ast.parse('_T').body[0].value
+        for args in fdef.args.args:
+            if args.arg in pe_arg:
+                args.annotation = Tvar
+        fdef.returns = Tvar
+    fdef.body = [ast.parse('...')]
+    # funcs.append(fdef)
+    funcs[fdef.name] = fdef
+
+# tree.body = funcs
+# print(ast.unparse(tree))
+
+with open('tilelang/language/tir/ir.py') as f:
+    data = f.read()
+
+all_funcs = []
+
+for name in re.findall(r'([A-Za-z_][A-Za-z0-9_]*) = _op_wrapper', data):
+    if name in funcs:
+        print(name)
+        all_funcs.append(funcs[name])
+
+
+tree.body = all_funcs
+
+with open('tilelang/language/tir/ir.pyi', 'w') as f:
+    f.write(ast.unparse(tree))
\ No newline at end of file
diff --git a/testing/python/language/test_tilelang_language_frontend_v2.py b/testing/python/language/test_tilelang_language_frontend_v2.py
index 915574c3e..bad009e66 100644
--- a/testing/python/language/test_tilelang_language_frontend_v2.py
+++ b/testing/python/language/test_tilelang_language_frontend_v2.py
@@ -145,62 +145,63 @@ def test_str_repr():
         buf_24 = T.alloc_buffer((1,), dtype=T.float64, scope='shared')  # noqa F841
 
 
-def test_torch_eq():
-    dtypes = [
-        T.bool,
-        T.short,
-        T.int,
-        T.long,
-        T.half,
-        T.float,
-        T.long,
-        T.int8,
-        T.int16,
-        T.int32,
-        T.int64,
-        T.uint8,
-        T.uint16,
-        T.uint32,
-        T.uint64,
-        T.float8_e4m3fn,
-        T.float8_e4m3fnuz,
-        T.float8_e5m2,
-        T.float8_e5m2fnuz,
-        T.float8_e8m0fnu,
-        T.float16,
-        T.bfloat16,
-        T.float32,
-        T.float64,
-    ]
-    torch_dtypes = [
-        torch.bool,
-        torch.short,
-        torch.int,
-        torch.long,
-        torch.half,
-        torch.float,
-        torch.long,
-        torch.int8,
-        torch.int16,
-        torch.int32,
-        torch.int64,
-        torch.uint8,
-        torch.uint16,
-        torch.uint32,
-        torch.uint64,
-        torch.float8_e4m3fn,
-        torch.float8_e4m3fnuz,
-        torch.float8_e5m2,
-        torch.float8_e5m2fnuz,
-        torch.float8_e8m0fnu,
-        torch.float16,
-        torch.bfloat16,
-        torch.float32,
-        torch.float64,
-    ]
-    for a, b in zip(dtypes, torch_dtypes):
-        assert a == b, f"{a} and {b} are not equal"
-        assert T.dtype(b) == a, "dtype conversion error"
+# not supported now
+# def test_torch_eq():
+#     dtypes = [
+#         T.bool,
+#         T.short,
+#         T.int,
+#         T.long,
+#         T.half,
+#         T.float,
+#         T.long,
+#         T.int8,
+#         T.int16,
+#         T.int32,
+#         T.int64,
+#         T.uint8,
+#         T.uint16,
+#         T.uint32,
+#         T.uint64,
+#         T.float8_e4m3fn,
+#         T.float8_e4m3fnuz,
+#         T.float8_e5m2,
+#         T.float8_e5m2fnuz,
+#         T.float8_e8m0fnu,
+#         T.float16,
+#         T.bfloat16,
+#         T.float32,
+#         T.float64,
+#     ]
+#     torch_dtypes = [
+#         torch.bool,
+#         torch.short,
+#         torch.int,
+#         torch.long,
+#         torch.half,
+#         torch.float,
+#         torch.long,
+#         torch.int8,
+#         torch.int16,
+#         torch.int32,
+#         torch.int64,
+#         torch.uint8,
+#         torch.uint16,
+#         torch.uint32,
+#         torch.uint64,
+#         torch.float8_e4m3fn,
+#         torch.float8_e4m3fnuz,
+#         torch.float8_e5m2,
+#         torch.float8_e5m2fnuz,
+#         torch.float8_e8m0fnu,
+#         torch.float16,
+#         torch.bfloat16,
+#         torch.float32,
+#         torch.float64,
+#     ]
+#     for a, b in zip(dtypes, torch_dtypes):
+#         assert a == b, f"{a} and {b} are not equal"
+#         assert T.dtype(b) == a, "dtype conversion error"
 
 
 def test_var_assign():
diff --git a/triteo_linear.py b/triteo_linear.py
new file mode 100644
index 000000000..21a8f9aba
--- /dev/null
+++ b/triteo_linear.py
@@ -0,0 +1,128 @@
+import tilelang
+import torch
+import tilelang.language as T
+
+# n = 2 ** 25
+B = 8
+t = 2**11
+D = 128
+k = torch.randn(B,t,D, dtype=torch.float32, device='cuda')
+s = torch.softmax(torch.randn(B,t,3, dtype=torch.float32, device='cuda'),dim=-1)
+
+def shift_with_zeros(x, shift, dim):
+    """
+    沿指定维度平移张量，移出去的部分用 0 填充
+    x:   输入张量
+    shift: 正数表示向后（高索引）移动，负数表示向前（低索引）移动
+    dim:  平移的维度
+    """
+    if shift == 0:
+        return x
+    # 记录张量形状
+    zeros_shape = list(x.shape)
+    zeros_shape[dim] = abs(shift)
+    zeros = torch.zeros(zeros_shape, dtype=x.dtype, device=x.device)
+
+    if shift > 0:
+        # 向后移动
+        return torch.cat([zeros, x.narrow(dim, 0, x.shape[dim] - shift)], dim=dim)
+    else:
+        # 向前移动
+        shift = -shift
+        return torch.cat([x.narrow(dim, shift, x.shape[dim] - shift), zeros], dim=dim)
+
+def make_first_recurrent(k, s):
+    """
+    k: [b, h, t, d]
+    s: [b, h, t, 3]
+    非循环位移版本：torch.roll 改为 shift_with_zeros
+    """
+    b, h, t, d = k.shape
+    device = k.device
+    dtype = k.dtype
+    # 初始化 S（不含时间维度）
+    S = torch.zeros((b, h, d, d), dtype=dtype, device=device)
+    o = []
+    for i in range(t):
+        # 保存当前 time step 的 S[:, :, 0] （加一个时间维）
+        o.append(S[:, :, 0].unsqueeze(2))
+        # 左右平移（补零）
+        S_left  = shift_with_zeros(S, 1, dim=2)   # j-1
+        S_right = shift_with_zeros(S, -1, dim=2)  # j+1
+        # 取权重并广播
+        w0 = s[:, :, i, 0].unsqueeze(-1).unsqueeze(-1)   # [b,h,1,1]
+        w1 = s[:, :, i, 1].unsqueeze(-1).unsqueeze(-1)
+        w2 = s[:, :, i, 2].unsqueeze(-1).unsqueeze(-1)
+        # 更新 S
+        S = S_left * w0 + S * w1 + S_right * w2
+        # 更新 S 的第 0 列
+        S[:, :, 0] = S[:, :, 0] + w0.squeeze(-1) * k[:, :, i]
+    return torch.cat(o, dim=2)
+block_size = 32
+num_block = t // block_size
+o_torch = torch.cat([ make_first_recurrent(k[:,i*block_size: (i+1)* block_size].unsqueeze(1),s[:,i*block_size: (i+1)* block_size].unsqueeze(1))for i in range(num_block)],dim=2).unsqueeze(1)
+
+@tilelang.jit
+def inner_chunk_recurrent_fwd_init0(b,t,d,blk_t=block_size) -> tilelang.JITKernel:
+
+    @T.prim_func
+    def inner_chunk_recurrent_fwd_init0_(
+        S: T.Tensor((b, t//blk_t, d, d), 'float32'),
+        k: T.Tensor((b, t, d), 'float32'),
+        s: T.Tensor((b, t, 3), 'float32'),
+        o: T.Tensor((b, t, d), 'float32'),
+    ):
+        
+        with T.Kernel(b * d,T.ceildiv(t, blk_t)) as (i_bd, i_t):
+            i_b = i_bd // d
+            i_d = i_bd % d
+            S_temp = T.alloc_fragment(d, 'float32') 
+            S_down = T.alloc_fragment(d, 'float32') 
+            S_up   = T.alloc_fragment(d, 'float32') 
+            S_mid  = T.alloc_fragment(d, 'float32') 
+            for i0_d in T.Parallel(d):
+                S_temp[i0_d] = 0 
+                S_down[i0_d] = 0
+                S_up[i0_d]   = 0
+                S_mid[i0_d]   = 0
+            for i0_t in T.serial(blk_t):
+                t_local = i0_t*blk_t + i0_t
+                #先存第一行也就是栈顶，到输出的o里面
+                o[i_b,t_local,i_d] = S_temp[0]
+                #再做三对角，实际上也就是相邻行的加权求和
+                down =  s[i_b,t_local,0]
+                mid = s[i_b,t_local,1]
+                up = s[i_b,t_local,2]
+                for i0_d in T.Parallel(d-1):
+                    S_down[i0_d + 1] = S_temp[i0_d] * down
+                for i0_d in T.Parallel(d-1):       
+                    S_up[i0_d] = S_temp[i0_d + 1] * up 
+                for i0_d in T.Parallel(d):       
+                    S_mid[i0_d] = S_temp[i0_d] * mid
+                S_down[0] = 0
+                S_up[d-1] = 0
+                for i0_d in T.Parallel(d):       
+                    S_temp[i0_d] += S_mid[i0_d]
+                    S_temp[i0_d] += S_down[i0_d]
+                    S_temp[i0_d] += S_up[i0_d]
+                #往栈顶写入当前的k
+                S_temp[0] += down * k[i_b,t_local,i_d]
+            # 存储当前block最终的状态S,留作未来计算
+            for i0_d in T.Parallel(d):
+                S[i_b,i_t,i0_d,i_d] = S_temp[i0_d]
+    return inner_chunk_recurrent_fwd_init0_
+
+# 这个参数是可以灵活配置的
+for blk_t in [32,64,128]:
+    print(f'---------------- {blk_t=} ----------------')
+    kernel = inner_chunk_recurrent_fwd_init0(B, t, D, blk_t)
+    
+    S = torch.empty(B,t // blk_t,D,D).to(k)
+    o_tilelang = torch.empty_like(k)
+    kernel(S,k,s,o_tilelang)
+    if blk_t == 32:
+        assert torch.all(o_torch == o_tilelang)
+    with torch.profiler.profile() as prof:
+        for _ in range(10):
+            inner_chunk_recurrent_fwd_init0(B,t,D,blk_t)(S,k,s,o_tilelang)
+    print(prof.key_averages().table())
\ No newline at end of file

From dcd7bb7acd71962fbfdee8e80e91e8cd07edb009 Mon Sep 17 00:00:00 2001
From: Freebase6912 <227995639+kurisu6912@users.noreply.github.com>
Date: Mon, 17 Nov 2025 10:51:15 +0800
Subject: [PATCH 10/10] remove debug files

---
 a.py             |   6 ---
 stubgen.py       | 115 ------------------------------------------
 triteo_linear.py | 128 -----------------------------------------------
 3 files changed, 249 deletions(-)
 delete mode 100644 a.py
 delete mode 100644 stubgen.py
 delete mode 100644 triteo_linear.py

diff --git a/a.py b/a.py
deleted file mode 100644
index 00291fbd5..000000000
--- a/a.py
+++ /dev/null
@@ -1,6 +0,0 @@
-from tilelang import tvm
-import torch
-
-vt = tvm.runtime.convert(torch.float32)
-
-tvm.DataType('float32')
\ No newline at end of file
diff --git a/stubgen.py b/stubgen.py
deleted file mode 100644
index 6492ad3c4..000000000
--- a/stubgen.py
+++ /dev/null
@@ -1,115 +0,0 @@
-import ast
-from logging.config import valid_ident
-import re
-# from rich import print
-
-from argparse import ArgumentParser
-
-with open('tilelang/language/tir/op.py') as f:
-    data = f.read()
-
-tree = ast.parse(data)
-
-def convert_tree(x):
-    result = {}
-    for fname, value in ast.iter_fields(x):
-        if isinstance(value, list):
-            result[fname] = [convert_tree(v) if isinstance(v, ast.AST) else v for v in value]
-        elif isinstance(value, ast.AST):
-            result[fname] = convert_tree(value)
-        else:
-            result[fname] = value
-    return result
-
-# print(convert_tree(tree))
-
-funcs = {}
-
-subst = {
-    'Expr': 'PrimExpr',
-    'UIntImm': 'IntImm',
-    'tvm.Expr': 'PrimExpr'
-}
-
-for fdef in tree.body:
-    if not isinstance(fdef, ast.FunctionDef):
-        continue
-    if not isinstance(fdef.body[0], ast.Expr):
-        continue
-    value = fdef.body[0].value
-    if not isinstance(value, ast.Constant):
-        continue
-    data = value.value
-    if not isinstance(data, str):
-        continue
-    lines = data.splitlines()
-    ty = None
-    annots = {}
-    for i, line in enumerate(lines):
-        if i > 0 and re.fullmatch(r'    \s*----+', line):
-            annot = lines[i - 1]
-            ty = None
-            if annot == '    Parameters':
-                ty = 'param'
-            if annot == '    Returns':
-                ty = 'return'
-        if mat := re.fullmatch(r'\s+([A-Za-z_][A-Za-z0-9_]*)\s*:\s+(.*)', line):
-            name, val = mat.groups()
-            val = subst.get(val, val)
-            if ty == 'param':
-                annots[name] = val
-            if ty == 'return':
-                annots['return'] = val
-    
-    pe_arg = []
-    span_arg = []
-    other_arg = []
-    for args in fdef.args.args:
-        if args.arg in annots:
-            annot = annots[args.arg]
-            if annot == 'PrimExpr':
-                pe_arg.append(args.arg)
-            elif annot == 'Optional[Span]':
-                span_arg.append(args.arg)
-            else:
-                other_arg.append(args.arg)
-            try:
-                args.annotation = ast.parse(annot).body[0].value
-            except Exception as e:
-                print(annot, repr(e))
-        else:
-            other_arg.append(args.arg)
-    if 'return' in annots:
-        try:
-            fdef.returns = ast.parse(annots['return']).body[0].value
-        except Exception as e:
-            print(annots['return'], repr(e))
-    if annots.get('return', None) == 'PrimExpr' and not other_arg:
-        print('UT Prim: ', fdef.name)
-        Tvar = ast.parse('_T').body[0].value
-        for args in fdef.args.args:
-            if args.arg in pe_arg:
-                args.annotation = Tvar
-        fdef.returns = Tvar
-    fdef.body = [ast.parse('...')]
-    # funcs.append(fdef)
-    funcs[fdef.name] = fdef
-
-# tree.body = funcs
-# print(ast.unparse(tree))
-
-with open('tilelang/language/tir/ir.py') as f:
-    data = f.read()
-
-all_funcs = []
-
-for name in re.findall(r'([A-Za-z_][A-Za-z0-9_]*) = _op_wrapper', data):
-    if name in funcs:
-        print(name)
-        all_funcs.append(funcs[name])
-
-
-tree.body = all_funcs
-
-with open('tilelang/language/tir/ir.pyi', 'w') as f:
-    f.write(ast.unparse(tree))
\ No newline at end of file
diff --git a/triteo_linear.py b/triteo_linear.py
deleted file mode 100644
index 21a8f9aba..000000000
--- a/triteo_linear.py
+++ /dev/null
@@ -1,128 +0,0 @@
-import tilelang
-import torch
-import tilelang.language as T
-
-# n = 2 ** 25
-B = 8
-t = 2**11
-D = 128
-k = torch.randn(B,t,D, dtype=torch.float32, device='cuda')
-s = torch.softmax(torch.randn(B,t,3, dtype=torch.float32, device='cuda'),dim=-1)
-
-def shift_with_zeros(x, shift, dim):
-    """
-    沿指定维度平移张量，移出去的部分用 0 填充
-    x:   输入张量
-    shift: 正数表示向后（高索引）移动，负数表示向前（低索引）移动
-    dim:  平移的维度
-    """
-    if shift == 0:
-        return x
-    # 记录张量形状
-    zeros_shape = list(x.shape)
-    zeros_shape[dim] = abs(shift)
-    zeros = torch.zeros(zeros_shape, dtype=x.dtype, device=x.device)
-
-    if shift > 0:
-        # 向后移动
-        return torch.cat([zeros, x.narrow(dim, 0, x.shape[dim] - shift)], dim=dim)
-    else:
-        # 向前移动
-        shift = -shift
-        return torch.cat([x.narrow(dim, shift, x.shape[dim] - shift), zeros], dim=dim)
-
-def make_first_recurrent(k, s):
-    """
-    k: [b, h, t, d]
-    s: [b, h, t, 3]
-    非循环位移版本：torch.roll 改为 shift_with_zeros
-    """
-    b, h, t, d = k.shape
-    device = k.device
-    dtype = k.dtype
-    # 初始化 S（不含时间维度）
-    S = torch.zeros((b, h, d, d), dtype=dtype, device=device)
-    o = []
-    for i in range(t):
-        # 保存当前 time step 的 S[:, :, 0] （加一个时间维）
-        o.append(S[:, :, 0].unsqueeze(2))
-        # 左右平移（补零）
-        S_left  = shift_with_zeros(S, 1, dim=2)   # j-1
-        S_right = shift_with_zeros(S, -1, dim=2)  # j+1
-        # 取权重并广播
-        w0 = s[:, :, i, 0].unsqueeze(-1).unsqueeze(-1)   # [b,h,1,1]
-        w1 = s[:, :, i, 1].unsqueeze(-1).unsqueeze(-1)
-        w2 = s[:, :, i, 2].unsqueeze(-1).unsqueeze(-1)
-        # 更新 S
-        S = S_left * w0 + S * w1 + S_right * w2
-        # 更新 S 的第 0 列
-        S[:, :, 0] = S[:, :, 0] + w0.squeeze(-1) * k[:, :, i]
-    return torch.cat(o, dim=2)
-block_size = 32
-num_block = t // block_size
-o_torch = torch.cat([ make_first_recurrent(k[:,i*block_size: (i+1)* block_size].unsqueeze(1),s[:,i*block_size: (i+1)* block_size].unsqueeze(1))for i in range(num_block)],dim=2).unsqueeze(1)
-
-@tilelang.jit
-def inner_chunk_recurrent_fwd_init0(b,t,d,blk_t=block_size) -> tilelang.JITKernel:
-
-    @T.prim_func
-    def inner_chunk_recurrent_fwd_init0_(
-        S: T.Tensor((b, t//blk_t, d, d), 'float32'),
-        k: T.Tensor((b, t, d), 'float32'),
-        s: T.Tensor((b, t, 3), 'float32'),
-        o: T.Tensor((b, t, d), 'float32'),
-    ):
-        
-        with T.Kernel(b * d,T.ceildiv(t, blk_t)) as (i_bd, i_t):
-            i_b = i_bd // d
-            i_d = i_bd % d
-            S_temp = T.alloc_fragment(d, 'float32') 
-            S_down = T.alloc_fragment(d, 'float32') 
-            S_up   = T.alloc_fragment(d, 'float32') 
-            S_mid  = T.alloc_fragment(d, 'float32') 
-            for i0_d in T.Parallel(d):
-                S_temp[i0_d] = 0 
-                S_down[i0_d] = 0
-                S_up[i0_d]   = 0
-                S_mid[i0_d]   = 0
-            for i0_t in T.serial(blk_t):
-                t_local = i0_t*blk_t + i0_t
-                #先存第一行也就是栈顶，到输出的o里面
-                o[i_b,t_local,i_d] = S_temp[0]
-                #再做三对角，实际上也就是相邻行的加权求和
-                down =  s[i_b,t_local,0]
-                mid = s[i_b,t_local,1]
-                up = s[i_b,t_local,2]
-                for i0_d in T.Parallel(d-1):
-                    S_down[i0_d + 1] = S_temp[i0_d] * down
-                for i0_d in T.Parallel(d-1):       
-                    S_up[i0_d] = S_temp[i0_d + 1] * up 
-                for i0_d in T.Parallel(d):       
-                    S_mid[i0_d] = S_temp[i0_d] * mid
-                S_down[0] = 0
-                S_up[d-1] = 0
-                for i0_d in T.Parallel(d):       
-                    S_temp[i0_d] += S_mid[i0_d]
-                    S_temp[i0_d] += S_down[i0_d]
-                    S_temp[i0_d] += S_up[i0_d]
-                #往栈顶写入当前的k
-                S_temp[0] += down * k[i_b,t_local,i_d]
-            # 存储当前block最终的状态S,留作未来计算
-            for i0_d in T.Parallel(d):
-                S[i_b,i_t,i0_d,i_d] = S_temp[i0_d]
-    return inner_chunk_recurrent_fwd_init0_
-
-# 这个参数是可以灵活配置的
-for blk_t in [32,64,128]:
-    print(f'---------------- {blk_t=} ----------------')
-    kernel = inner_chunk_recurrent_fwd_init0(B, t, D, blk_t)
-    
-    S = torch.empty(B,t // blk_t,D,D).to(k)
-    o_tilelang = torch.empty_like(k)
-    kernel(S,k,s,o_tilelang)
-    if blk_t == 32:
-        assert torch.all(o_torch == o_tilelang)
-    with torch.profiler.profile() as prof:
-        for _ in range(10):
-            inner_chunk_recurrent_fwd_init0(B,t,D,blk_t)(S,k,s,o_tilelang)
-    print(prof.key_averages().table())
\ No newline at end of file