flashinfer-ai · yzh119 · Feb 13, 2026 · Jan 29, 2026 · Jan 30, 2026 · coderabbitai
@@ -21,32 +21,42 @@ void softmax(TensorView workspace_buffer, TensorView logits, TensorView output,
              Optional<TensorView> maybe_temperature_arr, double temperature_val, bool enable_pdl);
 
 void sampling_from_probs(TensorView probs, TensorView output, Optional<TensorView> maybe_indices,
-                         bool deterministic, uint64_t philox_seed, uint64_t philox_offset);
+                         bool deterministic, Optional<TensorView> maybe_seed_arr, uint64_t seed_val,
+                         Optional<TensorView> maybe_offset_arr, uint64_t offset_val);
 
 void sampling_from_logits(TensorView logits, TensorView output, Optional<TensorView> maybe_indices,
-                          bool deterministic, uint64_t philox_seed, uint64_t philox_offset);
+                          bool deterministic, Optional<TensorView> maybe_seed_arr,
+                          uint64_t seed_val, Optional<TensorView> maybe_offset_arr,
+                          uint64_t offset_val);
 
 void top_p_sampling_from_probs(TensorView probs, TensorView output,
                                Optional<TensorView> maybe_indices,
                                Optional<TensorView> maybe_top_p_arr, double top_p_val,
-                               bool deterministic, uint64_t philox_seed, uint64_t philox_offset);
+                               bool deterministic, Optional<TensorView> maybe_seed_arr,
+                               uint64_t seed_val, Optional<TensorView> maybe_offset_arr,
+                               uint64_t offset_val);
 
 void top_k_sampling_from_probs(TensorView probs, TensorView output,
                                Optional<TensorView> maybe_indices,
                                Optional<TensorView> maybe_top_k_arr, int64_t top_k_val,
-                               bool deterministic, uint64_t philox_seed, uint64_t philox_offset);
+                               bool deterministic, Optional<TensorView> maybe_seed_arr,
+                               uint64_t seed_val, Optional<TensorView> maybe_offset_arr,
+                               uint64_t offset_val);
 
 void min_p_sampling_from_probs(TensorView probs, TensorView output,
                                Optional<TensorView> maybe_indices,
                                Optional<TensorView> maybe_min_p_arr, double min_p_val,
-                               bool deterministic, uint64_t philox_seed, uint64_t philox_offset);
+                               bool deterministic, Optional<TensorView> maybe_seed_arr,
+                               uint64_t seed_val, Optional<TensorView> maybe_offset_arr,
+                               uint64_t offset_val);
 
 void top_k_top_p_sampling_from_probs(TensorView probs, TensorView output,
                                      Optional<TensorView> maybe_indices,
                                      Optional<TensorView> maybe_top_k_arr, double top_k_val,
                                      Optional<TensorView> maybe_top_p_arr, double top_p_val,
-                                     bool deterministic, uint64_t philox_seed,
-                                     uint64_t philox_offset);
+                                     bool deterministic, Optional<TensorView> maybe_seed_arr,
+                                     uint64_t seed_val, Optional<TensorView> maybe_offset_arr,
+                                     uint64_t offset_val);
 
 void top_p_renorm_probs(TensorView probs, TensorView renorm_probs,
                         Optional<TensorView> maybe_top_p_arr, double top_p_val);
@@ -63,7 +73,8 @@ void chain_speculative_sampling(TensorView draft_probs, TensorView draft_token_i
                                 TensorView target_probs, TensorView output_token_ids,
                                 TensorView output_accepted_token_num,
                                 TensorView output_emitted_draft_token_num, bool deterministic,
-                                uint64_t philox_seed, uint64_t philox_offset);
+                                Optional<TensorView> maybe_seed_arr, uint64_t seed_val,
+                                Optional<TensorView> maybe_offset_arr, uint64_t offset_val);
 
 // Softmax
 TVM_FFI_DLL_EXPORT_TYPED_FUNC(softmax, softmax);

@@ -22,6 +22,28 @@ using namespace flashinfer;
 
 using tvm::ffi::Optional;
 
+// Helper function to validate seed/offset tensors for sampling operations
+inline void validate_seed_offset_tensors(const Optional<TensorView>& maybe_seed_arr,
+                                         const Optional<TensorView>& maybe_offset_arr,
+                                         const TensorView& reference_tensor) {
+  if (maybe_seed_arr.has_value()) {
+    CHECK_INPUT(maybe_seed_arr.value());
+    CHECK_DIM(1, maybe_seed_arr.value());
+    TVM_FFI_ICHECK(maybe_seed_arr.value().dtype() == dl_int64 ||
+                   maybe_seed_arr.value().dtype() == dl_uint64)
+        << "seed tensor must be int64 or uint64";
+    CHECK_DEVICE(maybe_seed_arr.value(), reference_tensor);
+  }
+  if (maybe_offset_arr.has_value()) {
+    CHECK_INPUT(maybe_offset_arr.value());
+    CHECK_DIM(1, maybe_offset_arr.value());
+    TVM_FFI_ICHECK(maybe_offset_arr.value().dtype() == dl_int64 ||
+                   maybe_offset_arr.value().dtype() == dl_uint64)
+        << "offset tensor must be int64 or uint64";
+    CHECK_DEVICE(maybe_offset_arr.value(), reference_tensor);
+  }
+}
+
 void softmax(TensorView workspace_buffer, TensorView logits, TensorView output,
              Optional<TensorView> maybe_temperature_arr, double temperature_val, bool enable_pdl) {
   CHECK_INPUT(workspace_buffer);
@@ -46,11 +68,15 @@ void softmax(TensorView workspace_buffer, TensorView logits, TensorView output,
 }
 
 void sampling_from_logits(TensorView logits, TensorView output, Optional<TensorView> maybe_indices,
-                          bool deterministic, uint64_t philox_seed, uint64_t philox_offset) {
+                          bool deterministic, Optional<TensorView> maybe_seed_arr,
+                          uint64_t seed_val, Optional<TensorView> maybe_offset_arr,
+                          uint64_t offset_val) {
   CHECK_INPUT(logits);
   CHECK_DIM(2, logits);  // logits: (batch_size, vocab_size)
   CHECK_MAYBE_INPUT_TYPES(maybe_indices, dl_int32, dl_int64);
   CHECK_MAYBE_SAME_DTYPE(maybe_indices, output);
+  validate_seed_offset_tensors(maybe_seed_arr, maybe_offset_arr, logits);
+
   unsigned int batch_size = output.size(0);
   unsigned int vocab_size = logits.size(1);
 
@@ -62,19 +88,28 @@ void sampling_from_logits(TensorView logits, TensorView output, Optional<TensorV
         static_cast<float*>(logits.data_ptr()), static_cast<IdType*>(output.data_ptr()),
         maybe_indices.has_value() ? static_cast<IdType*>(maybe_indices.value().data_ptr())
                                   : nullptr,
-        batch_size, vocab_size, deterministic, philox_seed, philox_offset, stream);
+        batch_size, vocab_size, deterministic,
+        maybe_seed_arr.has_value() ? static_cast<uint64_t*>(maybe_seed_arr.value().data_ptr())
+                                   : nullptr,
+        seed_val,
+        maybe_offset_arr.has_value() ? static_cast<uint64_t*>(maybe_offset_arr.value().data_ptr())
+                                     : nullptr,
+        offset_val, stream);
     TVM_FFI_ICHECK(status == cudaSuccess)
         << "SamplingFromLogits failed with error code " << cudaGetErrorString(status);
     return true;
   });
 }
 
 void sampling_from_probs(TensorView probs, TensorView output, Optional<TensorView> maybe_indices,
-                         bool deterministic, uint64_t philox_seed, uint64_t philox_offset) {
+                         bool deterministic, Optional<TensorView> maybe_seed_arr, uint64_t seed_val,
+                         Optional<TensorView> maybe_offset_arr, uint64_t offset_val) {
   CHECK_INPUT(probs);
   CHECK_DIM(2, probs);  // probs: (batch_size, vocab_size)
   CHECK_MAYBE_INPUT_TYPES(maybe_indices, dl_int32, dl_int64);
   CHECK_MAYBE_SAME_DTYPE(maybe_indices, output);
+  validate_seed_offset_tensors(maybe_seed_arr, maybe_offset_arr, probs);
+
   unsigned int batch_size = output.size(0);
   unsigned int vocab_size = probs.size(1);
 
@@ -86,7 +121,13 @@ void sampling_from_probs(TensorView probs, TensorView output, Optional<TensorVie
         static_cast<float*>(probs.data_ptr()), static_cast<IdType*>(output.data_ptr()),
         maybe_indices.has_value() ? static_cast<IdType*>(maybe_indices.value().data_ptr())
                                   : nullptr,
-        batch_size, vocab_size, deterministic, philox_seed, philox_offset, stream);
+        batch_size, vocab_size, deterministic,
+        maybe_seed_arr.has_value() ? static_cast<uint64_t*>(maybe_seed_arr.value().data_ptr())
+                                   : nullptr,
+        seed_val,
+        maybe_offset_arr.has_value() ? static_cast<uint64_t*>(maybe_offset_arr.value().data_ptr())
+                                     : nullptr,
+        offset_val, stream);
     TVM_FFI_ICHECK(status == cudaSuccess)
         << "SamplingFromProbs failed with error code " << cudaGetErrorString(status);
     return true;
@@ -96,11 +137,15 @@ void sampling_from_probs(TensorView probs, TensorView output, Optional<TensorVie
 void top_p_sampling_from_probs(TensorView probs, TensorView output,
                                Optional<TensorView> maybe_indices,
                                Optional<TensorView> maybe_top_p_arr, double top_p_val,
-                               bool deterministic, uint64_t philox_seed, uint64_t philox_offset) {
+                               bool deterministic, Optional<TensorView> maybe_seed_arr,
+                               uint64_t seed_val, Optional<TensorView> maybe_offset_arr,
+                               uint64_t offset_val) {
   CHECK_INPUT(probs);
   CHECK_DIM(2, probs);  // probs: (batch_size, vocab_size)
   CHECK_MAYBE_INPUT_TYPES(maybe_indices, dl_int32, dl_int64);
   CHECK_MAYBE_SAME_DTYPE(maybe_indices, output);
+  validate_seed_offset_tensors(maybe_seed_arr, maybe_offset_arr, probs);
+
   unsigned int batch_size = output.size(0);
   unsigned int vocab_size = probs.size(1);
   check_tensor_param(maybe_top_p_arr, probs);
@@ -115,7 +160,13 @@ void top_p_sampling_from_probs(TensorView probs, TensorView output,
         maybe_indices.has_value() ? static_cast<IdType*>(maybe_indices.value().data_ptr())
                                   : nullptr,
         has_top_p_arr ? static_cast<float*>(maybe_top_p_arr.value().data_ptr()) : nullptr,
-        batch_size, top_p_val, vocab_size, deterministic, philox_seed, philox_offset, stream);
+        batch_size, top_p_val, vocab_size, deterministic,
+        maybe_seed_arr.has_value() ? static_cast<uint64_t*>(maybe_seed_arr.value().data_ptr())
+                                   : nullptr,
+        seed_val,
+        maybe_offset_arr.has_value() ? static_cast<uint64_t*>(maybe_offset_arr.value().data_ptr())
+                                     : nullptr,
+        offset_val, stream);
     TVM_FFI_ICHECK(status == cudaSuccess)
         << "TopPSamplingFromProbs failed with error code " << cudaGetErrorString(status);
     return true;
@@ -125,14 +176,18 @@ void top_p_sampling_from_probs(TensorView probs, TensorView output,
 void top_k_sampling_from_probs(TensorView probs, TensorView output,
                                Optional<TensorView> maybe_indices,
                                Optional<TensorView> maybe_top_k_arr, int64_t top_k_val,
-                               bool deterministic, uint64_t philox_seed, uint64_t philox_offset) {
+                               bool deterministic, Optional<TensorView> maybe_seed_arr,
+                               uint64_t seed_val, Optional<TensorView> maybe_offset_arr,
+                               uint64_t offset_val) {
   CHECK_INPUT(probs);
   CHECK_INPUT(output);
   CHECK_DEVICE(output, probs);
   CHECK_DIM(2, probs);   // probs: (batch_size, vocab_size)
   CHECK_DIM(1, output);  // output: (batch_size)
   CHECK_MAYBE_INPUT_TYPES(maybe_indices, dl_int32, dl_int64);
   CHECK_MAYBE_SAME_DTYPE(maybe_indices, output);
+  validate_seed_offset_tensors(maybe_seed_arr, maybe_offset_arr, probs);
+
   unsigned int batch_size = output.size(0);
   unsigned int vocab_size = probs.size(1);
   check_tensor_param(maybe_top_k_arr, probs);
@@ -147,7 +202,13 @@ void top_k_sampling_from_probs(TensorView probs, TensorView output,
         maybe_indices.has_value() ? static_cast<IdType*>(maybe_indices.value().data_ptr())
                                   : nullptr,
         has_top_k_arr ? static_cast<float*>(maybe_top_k_arr.value().data_ptr()) : nullptr,
-        batch_size, top_k_val, vocab_size, deterministic, philox_seed, philox_offset, stream);
+        batch_size, top_k_val, vocab_size, deterministic,
+        maybe_seed_arr.has_value() ? static_cast<uint64_t*>(maybe_seed_arr.value().data_ptr())
+                                   : nullptr,
+        seed_val,
+        maybe_offset_arr.has_value() ? static_cast<uint64_t*>(maybe_offset_arr.value().data_ptr())
+                                     : nullptr,
+        offset_val, stream);
     TVM_FFI_ICHECK(status == cudaSuccess)
         << "TopKSamplingFromProbs failed with error code " << cudaGetErrorString(status);
     return true;
@@ -157,14 +218,18 @@ void top_k_sampling_from_probs(TensorView probs, TensorView output,
 void min_p_sampling_from_probs(TensorView probs, TensorView output,
                                Optional<TensorView> maybe_indices,
                                Optional<TensorView> maybe_min_p_arr, double min_p_val,
-                               bool deterministic, uint64_t philox_seed, uint64_t philox_offset) {
+                               bool deterministic, Optional<TensorView> maybe_seed_arr,
+                               uint64_t seed_val, Optional<TensorView> maybe_offset_arr,
+                               uint64_t offset_val) {
   CHECK_INPUT(probs);
   CHECK_INPUT(output);
   CHECK_DEVICE(output, probs);
   CHECK_DIM(2, probs);   // probs: (batch_size, vocab_size)
   CHECK_DIM(1, output);  // output: (batch_size)
   CHECK_MAYBE_INPUT_TYPES(maybe_indices, dl_int32, dl_int64);
   CHECK_MAYBE_SAME_DTYPE(maybe_indices, output);
+  validate_seed_offset_tensors(maybe_seed_arr, maybe_offset_arr, probs);
+
   unsigned int batch_size = output.size(0);
   unsigned int vocab_size = probs.size(1);
   check_tensor_param(maybe_min_p_arr, probs);
@@ -180,7 +245,13 @@ void min_p_sampling_from_probs(TensorView probs, TensorView output,
         static_cast<IdType*>(output.data_ptr()),
         maybe_indices.has_value() ? static_cast<IdType*>(maybe_indices.value().data_ptr())
                                   : nullptr,
-        batch_size, min_p_val, vocab_size, deterministic, philox_seed, philox_offset, stream);
+        batch_size, min_p_val, vocab_size, deterministic,
+        maybe_seed_arr.has_value() ? static_cast<uint64_t*>(maybe_seed_arr.value().data_ptr())
+                                   : nullptr,
+        seed_val,
+        maybe_offset_arr.has_value() ? static_cast<uint64_t*>(maybe_offset_arr.value().data_ptr())
+                                     : nullptr,
+        offset_val, stream);
     TVM_FFI_ICHECK(status == cudaSuccess)
         << "MinPSamplingFromProb failed with error code " << cudaGetErrorString(status);
     return true;
@@ -191,15 +262,18 @@ void top_k_top_p_sampling_from_probs(TensorView probs, TensorView output,
                                      Optional<TensorView> maybe_indices,
                                      Optional<TensorView> maybe_top_k_arr, double top_k_val,
                                      Optional<TensorView> maybe_top_p_arr, double top_p_val,
-                                     bool deterministic, uint64_t philox_seed,
-                                     uint64_t philox_offset) {
+                                     bool deterministic, Optional<TensorView> maybe_seed_arr,
+                                     uint64_t seed_val, Optional<TensorView> maybe_offset_arr,
+                                     uint64_t offset_val) {
   CHECK_INPUT(probs);
   CHECK_INPUT(output);
   CHECK_DEVICE(output, probs);
   CHECK_DIM(2, probs);   // probs: (batch_size, vocab_size)
   CHECK_DIM(1, output);  // output: (batch_size)
   CHECK_MAYBE_INPUT_TYPES(maybe_indices, dl_int32, dl_int64);
   CHECK_MAYBE_SAME_DTYPE(maybe_indices, output);
+  validate_seed_offset_tensors(maybe_seed_arr, maybe_offset_arr, probs);
+
   unsigned int batch_size = output.size(0);
   unsigned int vocab_size = probs.size(1);
   check_tensor_param(maybe_top_k_arr, probs);
@@ -218,8 +292,13 @@ void top_k_top_p_sampling_from_probs(TensorView probs, TensorView output,
         static_cast<IdType*>(output.data_ptr()),
         maybe_indices.has_value() ? static_cast<IdType*>(maybe_indices.value().data_ptr())
                                   : nullptr,
-        batch_size, top_k_val, top_p_val, vocab_size, deterministic, philox_seed, philox_offset,
-        stream);
+        batch_size, top_k_val, top_p_val, vocab_size, deterministic,
+        maybe_seed_arr.has_value() ? static_cast<uint64_t*>(maybe_seed_arr.value().data_ptr())
+                                   : nullptr,
+        seed_val,
+        maybe_offset_arr.has_value() ? static_cast<uint64_t*>(maybe_offset_arr.value().data_ptr())
+                                     : nullptr,
+        offset_val, stream);
     TVM_FFI_ICHECK(status == cudaSuccess)
         << "TopKTopPSamplingFromProbs failed with error code " << cudaGetErrorString(status);
     return true;
@@ -230,12 +309,15 @@ void chain_speculative_sampling(TensorView draft_probs, TensorView draft_token_i
                                 TensorView target_probs, TensorView output_token_ids,
                                 TensorView output_accepted_token_num,
                                 TensorView output_emitted_draft_token_num, bool deterministic,
-                                uint64_t philox_seed, uint64_t philox_offset) {
+                                Optional<TensorView> maybe_seed_arr, uint64_t seed_val,
+                                Optional<TensorView> maybe_offset_arr, uint64_t offset_val) {
   CHECK_INPUT(draft_probs);
   CHECK_INPUT(draft_token_ids);
   CHECK_INPUT(target_probs);
   CHECK_DEVICE(draft_token_ids, draft_probs);
   CHECK_DEVICE(target_probs, draft_probs);
+  validate_seed_offset_tensors(maybe_seed_arr, maybe_offset_arr, draft_probs);
+
   CHECK_DIM(3, draft_probs);      // draft_probs: (batch_size, num_speculate_tokens, vocab_size)
   CHECK_DIM(2, draft_token_ids);  // draft_token_ids: (batch_size, num_speculate_tokens)
   CHECK_DIM(3, target_probs);  // target_probs: (batch_size, num_speculate_tokens + 1, vocab_size)
@@ -256,7 +338,13 @@ void chain_speculative_sampling(TensorView draft_probs, TensorView draft_token_i
       static_cast<float*>(target_probs.data_ptr()), static_cast<int*>(output_token_ids.data_ptr()),
       static_cast<int*>(output_accepted_token_num.data_ptr()),
       static_cast<int*>(output_emitted_draft_token_num.data_ptr()), batch_size,
-      num_speculate_tokens, vocab_size, deterministic, philox_seed, philox_offset, stream);
+      num_speculate_tokens, vocab_size, deterministic,
+      maybe_seed_arr.has_value() ? static_cast<uint64_t*>(maybe_seed_arr.value().data_ptr())
+                                 : nullptr,
+      seed_val,
+      maybe_offset_arr.has_value() ? static_cast<uint64_t*>(maybe_offset_arr.value().data_ptr())
+                                   : nullptr,
+      offset_val, stream);
 
   TVM_FFI_ICHECK(status == cudaSuccess)
       << "ChainSpeculativeSampling failed with error code " << cudaGetErrorString(status);