erf-model
diff --git a/‎amr-wind/diffusion/incflo_diffusion.cpp
+31-33 b/‎amr-wind/diffusion/incflo_diffusion.cpp
+31-33
diff --git a/‎amr-wind/equation_systems/CompRHSOps.H
+122-126 b/‎amr-wind/equation_systems/CompRHSOps.H
+122-126
@@ -137,15 +137,15 @@ void fixup_eta_on_domain_faces(
         mfi_info.SetDynamic(true);
     }
 #ifdef AMREX_USE_OMP
-#pragma omp parallel if (amrex::Gpu::notInLaunchRegion())
+#pragma omp parallel if (false)
 #endif
     for (MFIter mfi(cc, mfi_info); mfi.isValid(); ++mfi) {
-        Box const& bx = mfi.validbox();
-        Array4<Real const> const& cca = cc.const_array(mfi);
+        const auto& bx = mfi.validbox();
+        const auto& cca = cc.const_array(mfi);
 
         int idim = 0;
         if (!geom.isPeriodic(idim)) {
-            Array4<Real> const& fca = fc[idim].array(mfi);
+            const auto& fca = fc[idim].array(mfi);
             if (bx.smallEnd(idim) == domain.smallEnd(idim)) {
                 amrex::ParallelFor(
                     amrex::bdryLo(bx, idim),
@@ -164,7 +164,7 @@ void fixup_eta_on_domain_faces(
 
         idim = 1;
         if (!geom.isPeriodic(idim)) {
-            Array4<Real> const& fca = fc[idim].array(mfi);
+            const auto& fca = fc[idim].array(mfi);
             if (bx.smallEnd(idim) == domain.smallEnd(idim)) {
                 amrex::ParallelFor(
                     amrex::bdryLo(bx, idim),
@@ -183,7 +183,7 @@ void fixup_eta_on_domain_faces(
 
         idim = 2;
         if (!geom.isPeriodic(idim)) {
-            Array4<Real> const& fca = fc[idim].array(mfi);
+            const auto& fca = fc[idim].array(mfi);
             if (bx.smallEnd(idim) == domain.smallEnd(idim)) {
                 amrex::ParallelFor(
                     amrex::bdryLo(bx, idim),
@@ -221,47 +221,45 @@ void viscosity_to_uniform_space(
         repo.get_mesh_mapping_det_j(amr_wind::FieldLoc::ZFACE);
 
     // beta accounted for mesh mapping (x-face) = J/fac^2 * mu
-    for (amrex::MFIter mfi(b[0]); mfi.isValid(); ++mfi) {
-        amrex::Array4<amrex::Real> const& mu = b[0].array(mfi);
-        amrex::Array4<amrex::Real const> const& fac =
-            mesh_fac_xf(lev).array(mfi);
-        amrex::Array4<amrex::Real const> const& detJ =
-            mesh_detJ_xf(lev).const_array(mfi);
+    {
+        const auto& mu_arrs = b[0].arrays();
+        const auto& fac_arrs = mesh_fac_xf(lev).arrays();
+        const auto& detJ_arrs = mesh_detJ_xf(lev).const_arrays();
 
         amrex::ParallelFor(
-            mfi.tilebox(), [=] AMREX_GPU_DEVICE(int i, int j, int k) noexcept {
-                mu(i, j, k) =
-                    mu(i, j, k) * detJ(i, j, k) / std::pow(fac(i, j, k, 0), 2);
+            b[0], [=] AMREX_GPU_DEVICE(int nbx, int i, int j, int k) noexcept {
+                mu_arrs[nbx](i, j, k) = mu_arrs[nbx](i, j, k) *
+                                        detJ_arrs[nbx](i, j, k) /
+                                        std::pow(fac_arrs[nbx](i, j, k, 0), 2);
             });
     }
     // beta accounted for mesh mapping (y-face) = J/fac^2 * mu
-    for (amrex::MFIter mfi(b[1]); mfi.isValid(); ++mfi) {
-        amrex::Array4<amrex::Real> const& mu = b[1].array(mfi);
-        amrex::Array4<amrex::Real const> const& fac =
-            mesh_fac_yf(lev).array(mfi);
-        amrex::Array4<amrex::Real const> const& detJ =
-            mesh_detJ_yf(lev).const_array(mfi);
+    {
+        const auto& mu_arrs = b[1].arrays();
+        const auto& fac_arrs = mesh_fac_yf(lev).arrays();
+        const auto& detJ_arrs = mesh_detJ_yf(lev).const_arrays();
 
         amrex::ParallelFor(
-            mfi.tilebox(), [=] AMREX_GPU_DEVICE(int i, int j, int k) noexcept {
-                mu(i, j, k) =
-                    mu(i, j, k) * detJ(i, j, k) / std::pow(fac(i, j, k, 1), 2);
+            b[1], [=] AMREX_GPU_DEVICE(int nbx, int i, int j, int k) noexcept {
+                mu_arrs[nbx](i, j, k) = mu_arrs[nbx](i, j, k) *
+                                        detJ_arrs[nbx](i, j, k) /
+                                        std::pow(fac_arrs[nbx](i, j, k, 1), 2);
             });
     }
     // beta accounted for mesh mapping (z-face) = J/fac^2 * mu
-    for (amrex::MFIter mfi(b[2]); mfi.isValid(); ++mfi) {
-        amrex::Array4<amrex::Real> const& mu = b[2].array(mfi);
-        amrex::Array4<amrex::Real const> const& fac =
-            mesh_fac_zf(lev).array(mfi);
-        amrex::Array4<amrex::Real const> const& detJ =
-            mesh_detJ_zf(lev).const_array(mfi);
+    {
+        const auto& mu_arrs = b[2].arrays();
+        const auto& fac_arrs = mesh_fac_zf(lev).arrays();
+        const auto& detJ_arrs = mesh_detJ_zf(lev).const_arrays();
 
         amrex::ParallelFor(
-            mfi.tilebox(), [=] AMREX_GPU_DEVICE(int i, int j, int k) noexcept {
-                mu(i, j, k) =
-                    mu(i, j, k) * detJ(i, j, k) / std::pow(fac(i, j, k, 2), 2);
+            b[2], [=] AMREX_GPU_DEVICE(int nbx, int i, int j, int k) noexcept {
+                mu_arrs[nbx](i, j, k) = mu_arrs[nbx](i, j, k) *
+                                        detJ_arrs[nbx](i, j, k) /
+                                        std::pow(fac_arrs[nbx](i, j, k, 2), 2);
             });
     }
+    amrex::Gpu::synchronize();
 }
 
 } // namespace diffusion
@@ -76,68 +76,66 @@ struct ComputeRHSOp
                          : nullptr;
 
         for (int lev = 0; lev < nlevels; ++lev) {
-#ifdef AMREX_USE_OMP
-#pragma omp parallel if (amrex::Gpu::notInLaunchRegion())
-#endif
-            for (amrex::MFIter mfi(field(lev)); mfi.isValid(); ++mfi) {
-                const auto& bx = mfi.tilebox();
-                auto fld = field(lev).array(mfi);
-                const auto fld_o = field_old(lev).const_array(mfi);
-                const auto rho_o = den_old(lev).const_array(mfi);
-                const auto rho = den_new(lev).const_array(mfi);
-                const auto src = src_term(lev).const_array(mfi);
-                const auto diff = diff_term(lev).const_array(mfi);
-                const auto ddt_o = conv_term(lev).const_array(mfi);
-                const auto imask = mask_cell(lev).const_array(mfi);
-                amrex::Array4<amrex::Real const> detJ =
-                    mesh_mapping ? ((*mesh_detJ)(lev).const_array(mfi))
-                                 : amrex::Array4<amrex::Real const>();
-
-                if (PDE::multiply_rho) {
-                    // Remove multiplication by density as it will be added back
-                    // in solver
-                    amrex::ParallelFor(
-                        bx, PDE::ndim,
-                        [=] AMREX_GPU_DEVICE(
-                            int i, int j, int k, int n) noexcept {
-                            amrex::Real det_j =
-                                mesh_mapping ? (detJ(i, j, k)) : 1.0;
-
-                            fld(i, j, k, n) =
-                                rho_o(i, j, k) * det_j * fld_o(i, j, k, n) +
-                                static_cast<amrex::Real>(imask(i, j, k)) * dt *
-                                    (ddt_o(i, j, k, n) +
-                                     det_j * src(i, j, k, n) +
-                                     factor * diff(i, j, k, n));
-
-                            fld(i, j, k, n) /= rho(i, j, k);
-
-                            if (difftype == DiffusionType::Explicit) {
-                                fld(i, j, k, n) /= det_j;
-                            }
-                        });
-                } else {
-                    amrex::ParallelFor(
-                        bx, PDE::ndim,
-                        [=] AMREX_GPU_DEVICE(
-                            int i, int j, int k, int n) noexcept {
-                            amrex::Real det_j =
-                                mesh_mapping ? (detJ(i, j, k)) : 1.0;
-
-                            fld(i, j, k, n) =
-                                det_j * fld_o(i, j, k, n) +
-                                static_cast<amrex::Real>(imask(i, j, k)) * dt *
-                                    (ddt_o(i, j, k, n) +
-                                     det_j * src(i, j, k, n) +
-                                     factor * diff(i, j, k, n));
-
-                            if (difftype == DiffusionType::Explicit) {
-                                fld(i, j, k, n) /= det_j;
-                            }
-                        });
-                }
+            const auto& fld_arrs = field(lev).arrays();
+            const auto& fld_o_arrs = field_old(lev).const_arrays();
+            const auto& rho_o_arrs = den_old(lev).const_arrays();
+            const auto& rho_arrs = den_new(lev).const_arrays();
+            const auto& src_arrs = src_term(lev).const_arrays();
+            const auto& diff_arrs = diff_term(lev).const_arrays();
+            const auto& ddt_o_arrs = conv_term(lev).const_arrays();
+            const auto& imask_arrs = mask_cell(lev).const_arrays();
+            const auto& detJ_arrs =
+                mesh_mapping ? ((*mesh_detJ)(lev).const_arrays())
+                             : amrex::MultiArray4<amrex::Real const>();
+
+            if (PDE::multiply_rho) {
+                // Remove multiplication by density as it will be added back
+                // in solver
+                amrex::ParallelFor(
+                    field(lev), amrex::IntVect(0), PDE::ndim,
+                    [=] AMREX_GPU_DEVICE(
+                        int nbx, int i, int j, int k, int n) noexcept {
+                        amrex::Real det_j =
+                            mesh_mapping ? (detJ_arrs[nbx](i, j, k)) : 1.0;
+
+                        fld_arrs[nbx](i, j, k, n) =
+                            rho_o_arrs[nbx](i, j, k) * det_j *
+                                fld_o_arrs[nbx](i, j, k, n) +
+                            static_cast<amrex::Real>(imask_arrs[nbx](i, j, k)) *
+                                dt *
+                                (ddt_o_arrs[nbx](i, j, k, n) +
+                                 det_j * src_arrs[nbx](i, j, k, n) +
+                                 factor * diff_arrs[nbx](i, j, k, n));
+
+                        fld_arrs[nbx](i, j, k, n) /= rho_arrs[nbx](i, j, k);
+
+                        if (difftype == DiffusionType::Explicit) {
+                            fld_arrs[nbx](i, j, k, n) /= det_j;
+                        }
+                    });
+            } else {
+                amrex::ParallelFor(
+                    field(lev), amrex::IntVect(0), PDE::ndim,
+                    [=] AMREX_GPU_DEVICE(
+                        int nbx, int i, int j, int k, int n) noexcept {
+                        amrex::Real det_j =
+                            mesh_mapping ? (detJ_arrs[nbx](i, j, k)) : 1.0;
+
+                        fld_arrs[nbx](i, j, k, n) =
+                            det_j * fld_o_arrs[nbx](i, j, k, n) +
+                            static_cast<amrex::Real>(imask_arrs[nbx](i, j, k)) *
+                                dt *
+                                (ddt_o_arrs[nbx](i, j, k, n) +
+                                 det_j * src_arrs[nbx](i, j, k, n) +
+                                 factor * diff_arrs[nbx](i, j, k, n));
+
+                        if (difftype == DiffusionType::Explicit) {
+                            fld_arrs[nbx](i, j, k, n) /= det_j;
+                        }
+                    });
             }
         }
+        amrex::Gpu::synchronize();
     }
 
     /** Compute right-hand side for corrector steps
@@ -196,74 +194,72 @@ struct ComputeRHSOp
                          : nullptr;
 
         for (int lev = 0; lev < nlevels; ++lev) {
-#ifdef AMREX_USE_OMP
-#pragma omp parallel if (amrex::Gpu::notInLaunchRegion())
-#endif
-            for (amrex::MFIter mfi(field(lev)); mfi.isValid(); ++mfi) {
-                const auto& bx = mfi.tilebox();
-                auto fld = field(lev).array(mfi);
-                const auto fld_o = field_old(lev).const_array(mfi);
-                const auto rho_o = den_old(lev).const_array(mfi);
-                const auto rho = den_new(lev).const_array(mfi);
-                const auto src = src_term(lev).const_array(mfi);
-                const auto diff = diff_term(lev).const_array(mfi);
-                const auto ddt = conv_term(lev).const_array(mfi);
-                const auto diff_o = diff_term_old(lev).const_array(mfi);
-                const auto ddt_o = conv_term_old(lev).const_array(mfi);
-                const auto imask = mask_cell(lev).const_array(mfi);
-                amrex::Array4<amrex::Real const> detJ =
-                    mesh_mapping ? ((*mesh_detJ)(lev).const_array(mfi))
-                                 : amrex::Array4<amrex::Real const>();
-
-                if (PDE::multiply_rho) {
-                    // Remove multiplication by density as it will be added back
-                    // in solver
-                    amrex::ParallelFor(
-                        bx, PDE::ndim,
-                        [=] AMREX_GPU_DEVICE(
-                            int i, int j, int k, int n) noexcept {
-                            amrex::Real det_j =
-                                mesh_mapping ? (detJ(i, j, k)) : 1.0;
-
-                            fld(i, j, k, n) =
-                                rho_o(i, j, k) * det_j * fld_o(i, j, k, n) +
-                                static_cast<amrex::Real>(imask(i, j, k)) * dt *
-                                    (0.5 *
-                                         (ddt_o(i, j, k, n) + ddt(i, j, k, n)) +
-                                     ofac * diff_o(i, j, k, n) +
-                                     nfac * diff(i, j, k, n) +
-                                     det_j * src(i, j, k, n));
-
-                            fld(i, j, k, n) /= rho(i, j, k);
-
-                            if (difftype == DiffusionType::Explicit) {
-                                fld(i, j, k, n) /= det_j;
-                            }
-                        });
-                } else {
-                    amrex::ParallelFor(
-                        bx, PDE::ndim,
-                        [=] AMREX_GPU_DEVICE(
-                            int i, int j, int k, int n) noexcept {
-                            amrex::Real det_j =
-                                mesh_mapping ? (detJ(i, j, k)) : 1.0;
-
-                            fld(i, j, k, n) =
-                                det_j * fld_o(i, j, k, n) +
-                                static_cast<amrex::Real>(imask(i, j, k)) * dt *
-                                    (0.5 *
-                                         (ddt_o(i, j, k, n) + ddt(i, j, k, n)) +
-                                     ofac * diff_o(i, j, k, n) +
-                                     nfac * diff(i, j, k, n) +
-                                     det_j * src(i, j, k, n));
-
-                            if (difftype == DiffusionType::Explicit) {
-                                fld(i, j, k, n) /= det_j;
-                            }
-                        });
-                }
+            const auto& fld_arrs = field(lev).arrays();
+            const auto& fld_o_arrs = field_old(lev).const_arrays();
+            const auto& rho_o_arrs = den_old(lev).const_arrays();
+            const auto& rho_arrs = den_new(lev).const_arrays();
+            const auto& src_arrs = src_term(lev).const_arrays();
+            const auto& diff_arrs = diff_term(lev).const_arrays();
+            const auto& ddt_arrs = conv_term(lev).const_arrays();
+            const auto& diff_o_arrs = diff_term_old(lev).const_arrays();
+            const auto& ddt_o_arrs = conv_term_old(lev).const_arrays();
+            const auto& imask_arrs = mask_cell(lev).const_arrays();
+            const auto& detJ_arrs =
+                mesh_mapping ? ((*mesh_detJ)(lev).const_arrays())
+                             : amrex::MultiArray4<amrex::Real const>();
+
+            if (PDE::multiply_rho) {
+                // Remove multiplication by density as it will be added back
+                // in solver
+                amrex::ParallelFor(
+                    field(lev), amrex::IntVect(0), PDE::ndim,
+                    [=] AMREX_GPU_DEVICE(
+                        int nbx, int i, int j, int k, int n) noexcept {
+                        amrex::Real det_j =
+                            mesh_mapping ? (detJ_arrs[nbx](i, j, k)) : 1.0;
+
+                        fld_arrs[nbx](i, j, k, n) =
+                            rho_o_arrs[nbx](i, j, k) * det_j *
+                                fld_o_arrs[nbx](i, j, k, n) +
+                            static_cast<amrex::Real>(imask_arrs[nbx](i, j, k)) *
+                                dt *
+                                (0.5 * (ddt_o_arrs[nbx](i, j, k, n) +
+                                        ddt_arrs[nbx](i, j, k, n)) +
+                                 ofac * diff_o_arrs[nbx](i, j, k, n) +
+                                 nfac * diff_arrs[nbx](i, j, k, n) +
+                                 det_j * src_arrs[nbx](i, j, k, n));
+
+                        fld_arrs[nbx](i, j, k, n) /= rho_arrs[nbx](i, j, k);
+
+                        if (difftype == DiffusionType::Explicit) {
+                            fld_arrs[nbx](i, j, k, n) /= det_j;
+                        }
+                    });
+            } else {
+                amrex::ParallelFor(
+                    field(lev), amrex::IntVect(0), PDE::ndim,
+                    [=] AMREX_GPU_DEVICE(
+                        int nbx, int i, int j, int k, int n) noexcept {
+                        amrex::Real det_j =
+                            mesh_mapping ? (detJ_arrs[nbx](i, j, k)) : 1.0;
+
+                        fld_arrs[nbx](i, j, k, n) =
+                            det_j * fld_o_arrs[nbx](i, j, k, n) +
+                            static_cast<amrex::Real>(imask_arrs[nbx](i, j, k)) *
+                                dt *
+                                (0.5 * (ddt_o_arrs[nbx](i, j, k, n) +
+                                        ddt_arrs[nbx](i, j, k, n)) +
+                                 ofac * diff_o_arrs[nbx](i, j, k, n) +
+                                 nfac * diff_arrs[nbx](i, j, k, n) +
+                                 det_j * src_arrs[nbx](i, j, k, n));
+
+                        if (difftype == DiffusionType::Explicit) {
+                            fld_arrs[nbx](i, j, k, n) /= det_j;
+                        }
+                    });
             }
         }
+        amrex::Gpu::synchronize();
     }
 
     // data members