NVIDIA
diff --git a/‎csrc/alias_analysis.cpp
+4-4 b/‎csrc/alias_analysis.cpp
+4-4
diff --git a/‎csrc/codegen.cpp
+19-22 b/‎csrc/codegen.cpp
+19-22
diff --git a/‎csrc/compute_at.cpp
+1-3 b/‎csrc/compute_at.cpp
+1-3
diff --git a/‎csrc/compute_at_map.cpp
+11-11 b/‎csrc/compute_at_map.cpp
+11-11
diff --git a/‎csrc/contiguity.cpp
+3-3 b/‎csrc/contiguity.cpp
+3-3
@@ -149,7 +149,7 @@ std::pair<bool, std::optional<bool>> mergeContiguity(
       PairwiseLogicalDomainMap(in, out).mapProducerToConsumer();
 
   Layout preferred_out_layout;
-  for (const auto i : c10::irange(preferred_in_layout.size())) {
+  for (const auto i : arange(preferred_in_layout.size())) {
     IterDomain* in_alloc_id = preferred_in_layout.allocation_domain[i];
     IterDomain* out_root_id = getOrDefault(in_logical_to_out_root, in_alloc_id);
     if (out_root_id == nullptr) {
@@ -176,7 +176,7 @@ void AliasFinder::handle(const ViewOp* view) {
   }
 
   LinkedHashMap<IterDomain*, std::optional<bool>> allocation_to_contiguity;
-  for (const auto i : c10::irange(out_root_layout->size())) {
+  for (const auto i : arange(out_root_layout->size())) {
     if (!out_root_layout->contiguity[i].has_value() &&
         !out_root_layout->allocation_domain[i]->isBroadcast()) {
       // TODO(#1126): Due to #1126, `out_root` materializes an expanded
@@ -352,7 +352,7 @@ void AliasFinder::handle(const BroadcastOp* bcast) {
 
   // Put new, broadcast dimensions to the end.
   const std::vector<IterDomain*> out_logical = out->getLogicalDomain();
-  for (const auto i : c10::irange(out_logical.size())) {
+  for (const auto i : arange(out_logical.size())) {
     if (bcast->isBroadcastDim(i)) {
       out_layout->allocation_domain.push_back(out_logical[i]);
       out_layout->contiguity.emplace_back(std::nullopt);
@@ -550,7 +550,7 @@ bool Layout::isCompliantWith(const Layout& required) const {
     return false;
   }
 
-  for (const auto i : c10::irange(allocation_domain.size())) {
+  for (const auto i : arange(allocation_domain.size())) {
     if (!contiguityIsCompliant(contiguity[i], required.contiguity[i])) {
       return false;
     }
 
@@ -57,7 +57,7 @@ class ArgumentBuilder {
   //! Build an argument list where each argument has its own line
   ArgumentBuilder(int indent_level, const char* tab) {
     std::stringstream ss;
-    for (const auto i : c10::irange(indent_level)) {
+    for (const auto i : arange(indent_level)) {
       (void)i; // Suppress unused variable warning
       ss << tab;
     }
@@ -335,7 +335,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
     // Generate parameter declarations
     kernel_params_.reserve(kernel_->parameters().size());
     unsigned int duplicate_counter = 0;
-    for (auto i : c10::irange(kernel_->parameters().size())) {
+    for (auto i : arange(kernel_->parameters().size())) {
       std::stringstream var_name_ss;
       auto param = kernel_->parameters().at(i);
       kernel_params_.insert(param);
@@ -557,7 +557,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
   }
 
   std::ostream& indent() {
-    for (const auto i : c10::irange(block_nest_level_)) {
+    for (const auto i : arange(block_nest_level_)) {
       (void)i; // Suppress unused variable warning
       code_ << kTab;
     }
@@ -817,7 +817,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
     }
     auto dtype = std::get<StructType>(sop->output(0)->dtype().type);
     code_ << dtype.name << "{ ";
-    for (auto i : c10::irange(sop->inputs().size())) {
+    for (auto i : arange(sop->inputs().size())) {
       if (i > 0) {
         code_ << ", ";
       }
@@ -906,7 +906,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
       // Generate other datatypes in double
     }
     code_ << "(" << gen(rop->input(0));
-    for (auto inp_i : c10::irange(1, rop->inputs().size())) {
+    for (auto inp_i : arange(1, rop->inputs().size())) {
       code_ << ", " << gen(rop->input(inp_i));
     }
     code_ << ");\n";
@@ -2106,8 +2106,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
     ArgumentBuilder func_args(block_nest_level_ + 1, kTab);
 
     // Append arguments for each reduction
-    for (const auto i :
-         c10::irange(grouped_grop->numHorizontallyGroupedExprs())) {
+    for (const auto i : arange(grouped_grop->numHorizontallyGroupedExprs())) {
       NVF_ERROR(
           grouped_grop->reduction_buffers().at(i)->buffer()->isA<TensorView>());
       const auto work_buffer =
@@ -2221,7 +2220,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
     for (const auto& index_values : index_val_sets) {
       NVF_ERROR(loop_indices.size() == index_values.size());
       std::unordered_map<const Val*, int64_t> index_val_map;
-      for (const auto i : c10::irange(loop_indices.size())) {
+      for (const auto i : arange(loop_indices.size())) {
         auto loop_index = loop_indices.at(i);
         auto index_val = index_values.at(i);
         index_val_map.emplace(loop_index, index_val);
@@ -2280,15 +2279,14 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
     ArgumentBuilder write_preds;
 
     for (const auto expr_index :
-         c10::irange(grouped_grop->numHorizontallyGroupedExprs())) {
+         arange(grouped_grop->numHorizontallyGroupedExprs())) {
       const auto data_type = grouped_grop->outputs().at(expr_index)->dtype();
       NVF_ERROR(grouped_grop->reduction_buffers()
                     .at(expr_index)
                     ->buffer()
                     ->isA<TensorView>());
 
-      for (const auto& group_index :
-           c10::irange(index_replacement_maps.size())) {
+      for (const auto& group_index : arange(index_replacement_maps.size())) {
         // Set the index replacement map with the concrete values of
         // indices of grouped loops.
         index_replacement_map_ = index_replacement_maps.at(group_index);
@@ -2422,13 +2420,12 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
     auto init_vals = grouped_gwop->initVals();
 
     for (const auto expr_index :
-         c10::irange(grouped_gwop->numHorizontallyGroupedExprs())) {
+         arange(grouped_gwop->numHorizontallyGroupedExprs())) {
       const auto& output = output_vals.at(expr_index);
       const auto& input = input_vals.at(expr_index);
       const auto& init = init_vals.at(expr_index);
 
-      for (const auto& group_index :
-           c10::irange(index_replacement_maps.size())) {
+      for (const auto& group_index : arange(index_replacement_maps.size())) {
         // Set the index replacement map with the concrete values of
         // indices of grouped loops.
         index_replacement_map_ = index_replacement_maps.at(group_index);
@@ -2442,7 +2439,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
                std::to_string(group_index));
 
         // Setup arguments for avg, var, and N
-        for (const auto i : c10::irange(3)) {
+        for (const auto i : arange(3)) {
           out_args[i].arg(gen(output.get(i)));
           in_args[i].arg(gen(input.get(i)));
           init_args[i].arg(gen(init.get(i)));
@@ -2589,7 +2586,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
     func_args.arg(genComputeBlockDim());
 
     // global buf
-    for (const auto i : c10::irange(3)) {
+    for (const auto i : arange(3)) {
       const auto work_buffer = grouped_gwop->reduction_buffers()[i]
                                    .at(0)
                                    ->buffer()
@@ -3005,7 +3002,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
           grouped_rop->writePredicate());
     }
 
-    for (const auto i : c10::irange(num_grouped_exprs)) {
+    for (const auto i : arange(num_grouped_exprs)) {
       NVF_ERROR(grouped_rop->output(i)->isA<kir::TensorIndex>());
 
       const auto output = grouped_rop->output(i)->as<kir::TensorIndex>();
@@ -3267,7 +3264,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
     // Indentation for the PTX code
     int utility_block_nest_level = 1;
     std::function<std::ostream&()> indent_utility = [&]() -> std::ostream& {
-      for (auto _ : c10::irange(utility_block_nest_level)) {
+      for (auto _ : arange(utility_block_nest_level)) {
         (void)_;
         utilities << kTab;
       }
@@ -3294,7 +3291,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
         if (!asm_->options().immediate_inputs.empty()) {
           utilities << "template <";
           bool first = true;
-          for (auto in_i : c10::irange((int64_t)inputs.size())) {
+          for (auto in_i : arange((int64_t)inputs.size())) {
             if (asm_->options().immediate_inputs.count(in_i)) {
               if (!first) {
                 utilities << ", ";
@@ -3306,7 +3303,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
           utilities << ">\n";
         }
         utilities << "__device__ __inline__ void " << utility_name_no_ns << "(";
-        for (auto out_i : c10::irange(outputs.size())) {
+        for (auto out_i : arange(outputs.size())) {
           if (out_i > 0) {
             utilities << ", ";
           }
@@ -3315,7 +3312,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
         if (!outputs.empty()) {
           utilities << ", ";
         }
-        for (auto in_i : c10::irange((int64_t)inputs.size())) {
+        for (auto in_i : arange((int64_t)inputs.size())) {
           if (asm_->options().immediate_inputs.count(in_i)) {
             continue;
           }
@@ -3427,7 +3424,7 @@ class CudaKernelGenerator : private kir::ConstIrVisitor {
               auto reg_dtype = get_type_or_index_type(register_);
               if (std::holds_alternative<ArrayType>(reg_dtype.type)) {
                 for (auto i :
-                     c10::irange(std::get<ArrayType>(reg_dtype.type).size)) {
+                     arange(std::get<ArrayType>(reg_dtype.type).size)) {
                   if (i > 0) {
                     next_line();
                   }
 
@@ -15,8 +15,6 @@
 #include <scheduler/tools/inlining.h>
 #include <transform_iter.h>
 
-#include <c10/util/irange.h>
-
 namespace nvfuser {
 
 // Simple selector that only propagates across tensor views in the provided
@@ -66,7 +64,7 @@ std::set<T> set_intersection(const std::set<T>& set1, const std::set<T>& set2) {
 std::deque<std::deque<TensorView*>> tvChains(
     std::deque<std::deque<Val*>> val_chains) {
   std::deque<std::deque<TensorView*>> tv_chains(val_chains.size());
-  for (const auto i : c10::irange(val_chains.size())) {
+  for (const auto i : arange(val_chains.size())) {
     auto tv_iterable = ir_utils::filterByType<TensorView>(val_chains[i]);
     tv_chains[i] =
         std::deque<TensorView*>(tv_iterable.begin(), tv_iterable.end());
 
@@ -216,7 +216,7 @@ void IterDomainGraph::mapThroughExpr(Expr* first, Expr* second, bool forward) {
       first->toString(),
       "\nand\n",
       second->toString());
-  for (auto out_i : c10::irange(first_ids.size())) {
+  for (auto out_i : arange(first_ids.size())) {
     exact_nodes_.mapEntries(first_ids[out_i], second_ids[out_i]);
     permissive_nodes_.mapEntries(first_ids[out_i], second_ids[out_i]);
     permissive_resize_nodes_.mapEntries(first_ids[out_i], second_ids[out_i]);
@@ -393,7 +393,7 @@ void IterDomainGraph::build(Fusion* fusion) {
           // p->f, c->c
           std::unordered_map<IterDomain*, IterDomain*> c2f_root_map;
           for (const auto i :
-               c10::irange(first_output_tv->getMaybeRootDomain().size())) {
+               arange(first_output_tv->getMaybeRootDomain().size())) {
             c2f_root_map.insert(std::make_pair(
                 c_tv->getMaybeRootDomain()[i],
                 first_output_tv->getMaybeRootDomain()[i]));
@@ -504,7 +504,7 @@ void IterDomainGraph::build(Fusion* fusion) {
 
         for (auto& dset : permissive_disjoint_sets.disjointSets()) {
           auto& vec = dset->vector();
-          for (auto i : c10::irange(vec.size())) {
+          for (auto i : arange(vec.size())) {
             auto id1 = vec[i];
             permissive_nodes_.mapEntries(id1, vec[0]);
 
@@ -513,7 +513,7 @@ void IterDomainGraph::build(Fusion* fusion) {
             //  or p_id is swizzle output.
             mapMaybeSwizzleOp(permissive_nodes_, id1);
 
-            for (auto j : c10::irange(i + 1, vec.size())) {
+            for (auto j : arange(i + 1, vec.size())) {
               auto id2 = vec[j];
               if (p_ids.count(id1) && c_ids.count(id2)) {
                 if (idIsAComputeAtLeafDomain(id1, p_tv, c_tv) &&
@@ -538,11 +538,11 @@ void IterDomainGraph::build(Fusion* fusion) {
         // permissive-resize mappings.
         for (auto& dset : permissive_resize_disjoint_sets.disjointSets()) {
           auto& vec = dset->vector();
-          for (auto i : c10::irange(vec.size())) {
+          for (auto i : arange(vec.size())) {
             auto id1 = vec[i];
             permissive_resize_nodes_.mapEntries(id1, vec[0]);
             mapMaybeSwizzleOp(permissive_resize_nodes_, id1);
-            for (auto j : c10::irange(i + 1, vec.size())) {
+            for (auto j : arange(i + 1, vec.size())) {
               auto id2 = vec[j];
               if (p_ids.count(id1) && c_ids.count(id2)) {
                 consumers_.at(id1).pushBack(id2);
@@ -651,7 +651,7 @@ void IterDomainGraph::build(Fusion* fusion) {
   for (auto prop_forward : {true, false}) {
     std::unordered_set<Expr*> visited_exprs;
 
-    for (auto logical_id_i : c10::irange(logical_id_order.size())) {
+    for (auto logical_id_i : arange(logical_id_order.size())) {
       auto first_logical_id = prop_forward
           ? logical_id_order[logical_id_i]
           : logical_id_order[logical_id_order.size() - 1 - logical_id_i];
@@ -881,8 +881,8 @@ void ComputeAtMap::allocateIndexVariables() {
       // Allocate index variable for each stage of the circular buffered loop.
       circular_buffered_loop_index_variable_map_[loop_disjoint_set.get()] =
           std::make_unique<CircularBufferIndices>();
-      for (auto i : c10::irange(
-               static_cast<int>(CircularBufferLoopStage::EndOfStages))) {
+      for (auto i :
+           arange(static_cast<int>(CircularBufferLoopStage::EndOfStages))) {
         auto stage = static_cast<CircularBufferLoopStage>(i);
         circular_buffered_loop_index_variable_map_[loop_disjoint_set.get()]
             ->emplace(stage, IrBuilder::create<Val>(DataType::Index));
@@ -1260,7 +1260,7 @@ bool ComputeAtMap::areExactExprs(Expr* expr_1, Expr* expr_2) {
           expr_1->outputs().size() == expr_2->outputs().size(),
       "Expr traversal doesn't support variable number of inputs and outputs.");
 
-  for (auto input_i : c10::irange(expr_1->inputs().size())) {
+  for (auto input_i : arange(expr_1->inputs().size())) {
     if (expr_1->inputs()[input_i]->isA<IterDomain>() &&
         !areMapped(
             expr_1->inputs()[input_i]->as<IterDomain>(),
@@ -1271,7 +1271,7 @@ bool ComputeAtMap::areExactExprs(Expr* expr_1, Expr* expr_2) {
     }
   }
 
-  for (auto output_i : c10::irange(expr_1->outputs().size())) {
+  for (auto output_i : arange(expr_1->outputs().size())) {
     if (expr_1->outputs()[output_i]->isA<IterDomain>() &&
         !areMapped(
             expr_1->outputs()[output_i]->as<IterDomain>(),
 
@@ -22,7 +22,7 @@ OrderedIdInformation::OrderedIdInformation(
   }
 
   // Grab allocation ids and initialize them.
-  for (const auto alloc_i : c10::irange(alloc_domain.size())) {
+  for (const auto alloc_i : arange(alloc_domain.size())) {
     auto alloc_id = alloc_domain[alloc_i]->as<IterDomain>();
 
     // Initialize id_to_alloc_ids to map allocs to themselves
@@ -508,7 +508,7 @@ void ContigIDs::build(const std::vector<IterDomain*>& ids) {
       " != ",
       alloc_contiguity_.size());
 
-  for (const auto alloc_domain_i : c10::irange(alloc_domain_.size())) {
+  for (const auto alloc_domain_i : arange(alloc_domain_.size())) {
     auto alloc_domain_id = alloc_domain_.at(alloc_domain_i);
     if (alloc_domain_id->isBroadcast()) {
       NVF_ERROR(!alloc_contiguity_.at(alloc_domain_i).has_value());
@@ -599,7 +599,7 @@ void ContigIDs::handle(Merge* merge) {
   bool is_indexing_pass = !ignore_consistent_ordering_;
 
   IterDomain* last_alloc = nullptr;
-  for (auto alloc_id_i : c10::irange(alloc_domain_.size())) {
+  for (auto alloc_id_i : arange(alloc_domain_.size())) {
     auto alloc_id = alloc_domain_[alloc_id_i];
     if (alloc_id->isBroadcast()) {
       NVF_ERROR(!alloc_contiguity_.at(alloc_id_i).has_value());